RT-H是一个利用视觉语言模型(VLM)通过语言来预测动作层次结构的模型,由Google DeepMind的研究团队开发。。RT-H能够理解用自然语言描述的任务指令,比如你告诉机器人“关闭开心果罐”,机器人可以理解这个任务需要它做哪些具体的动作。
这种方法的聪明之处在于,它把复杂的任务分解成了简单的动作序列。这不仅让机器人更容易学习不同的任务,而且当任务失败时,人类可以用简单的语言来告诉机器人如何修正,比如改变动作的方向或方式。这种用语言来指导机器人的方式,让人类与机器人的交互变得更简单、直观。
Support authors and subscribe to content
This is premium stuff. Subscribe to read the entire article.
Login if you have purchased
AIGC的使用课程,包括ChatGPT进阶教程、AI绘画教程(例如Midjourney、Stable Diffusion)、电商设计等多种AI设计培训课,旨在帮助用户快速入门AIGC技术