RT-H是一个利用视觉语言模型(VLM)通过语言来预测动作层次结构的模型,由Google DeepMind的研究团队开发。。RT-H能够理解用自然语言描述的任务指令,比如你告诉机器人“关闭开心果罐”,机器人可以理解这个任务需要它做哪些具体的动作。
这种方法的聪明之处在于,它把复杂的任务分解成了简单的动作序列。这不仅让机器人更容易学习不同的任务,而且当任务失败时,人类可以用简单的语言来告诉机器人如何修正,比如改变动作的方向或方式。这种用语言来指导机器人的方式,让人类与机器人的交互变得更简单、直观。
Support authors and subscribe to content
This is premium stuff. Subscribe to read the entire article.
Login if you have purchased
灵羽助手(AI Anywhere)是一款桌面端智能助手,可以帮您一键翻译、润色和解释选中的文本,随时随地聊天,并使用内置或自定义的prompts生成高质量内容,协助您创作文案、阅读、编程、沟通等。