首页 > Ai资讯 > Ai日报 > 苹果开发出能 “看 “懂屏幕上下文的人工智能 不需要依赖屏幕截图

苹果开发出能 “看 “懂屏幕上下文的人工智能 不需要依赖屏幕截图

发布时间:2024年05月18日

苹果研究人员开发了一种新型人工智能系统,它能理解屏幕上下文和含糊不清的提法从而改善与语音助手的交互,使得与语音助手的互动更加自然。 ReALM 使用解析的屏幕实体重建屏幕,生成文本表示,其性能优于 GPT-4。 通过这项研究,苹果公司正在着力提高 Siri 的对话能力和情境感知能力。

该系统名为ReALM(引用解析作为语言建模),通过利用大型语言模型将引用解析的复杂任务——包括理解对屏幕上视觉元素的引用——转化为一个纯粹的语言建模问题。这使ReALM能够与现有方法相比取得显著的性能提升。ReALM的一个关键创新是重构屏幕,使用解析的屏幕实体及其位置生成文本表示,捕获视觉布局。

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

Subscribe

Gain access to all our Premium contents.
More than 100+ articles.

如果你想要了解关于智能工具类的内容,可以查看 智汇宝库,这是一个提供智能工具的网站。
在这你可以找到各种智能工具的相关信息,了解智能工具的用法以及最新动态。