智谱 AI 这次是真的国际领先了发布AutoGLM 一句话手机自动帮你点外卖、订酒店买东西

前天，Claude 才发布 Computer Use，让AI可以像人一样操控你的电脑来干活，已经很炸裂了。

这都还没热乎。

没想到国内的智谱 AI 就搞出了个“Phone Use ”，布了他们首个产品化的智能体——AutoGLM。

简单来说，它是一个能代替你在手机和网页上完成各种操作的AI助手，不需要手动搞那些复杂的流程，只需要说出你的需求，AutoGLM就可以可以模拟像人类操作手机打开APP一路火花带闪电全自动搞定。

视频播放器

00:00

它可以帮你：

使用场景

假如你正在做饭、洗漱、洗澡、运动、开车、忙着工作的时候，突然有一个事情要在手机上完成，而你抽不开手，很好的解放你的双手。

比如，看到老板发的朋友圈想点个赞并留个评论，或者在淘宝上重复购买之前买过的某样东西，甚至是预订酒店、购买火车票、叫车、导航这些琐碎的事情？

现在只需要对着你的手说出你想要干的事情，AutoGLM就能帮你全部搞定。

让我们一起来看看它有多神奇吧！

视频播放器

00:00

给微信好友发信息

视频播放器

00:00

给微信好友朋友圈点赞回复

AutoGLM并不仅限于简单的应用场景，它的目标是“做你在手机上能做的所有事情”。这意味着它可以帮你做任何你想做的手机操作——

视频播放器

00:00

从淘宝购物清空你的购物车

视频播放器

00:00

帮你点外卖，而且还可以自己选规格，比如咖啡的大中小杯、甜度、冰的还是热的等

视频播放器

00:00

帮你订酒店，而且还能筛选日期、位置、酒店价位、床型等各种复杂选项

从浏览网页到下单购物，再到订酒店、订机票、设置导航无所不能。

这得益于它对手机界面的深刻理解和强大的学习能力。

为了让AutoGLM不断学习，智谱团队研发了“自进化在线课程强化学习框架”，这样AutoGLM可以像人一样，通过不断的学习和实践来变得越来越强大。它不仅能学会新技能，还能自我纠正和改进，保证在实际应用中能越来越好地满足用户的需求。

“任务规划”和“动作执行”解耦
- 就像分工合作一样，AutoGLM 把“任务规划”（想干什么）和“动作执行”（怎么操作）这两个步骤分开处理，用自然语言作为桥梁。
- 这样做的好处是：智能体能更精准地执行操作。例如，当它需要在手机上点外卖时，能更准确地点击“提交订单”按钮。
- 这就像先列一个购物清单，然后按单子去超市找东西。AutoGLM 通过用自然语言作为中间沟通桥梁，将这两个步骤分开进行，让每一步都更准确。
- 这种设计使得智能体可以像人类一样，通过自然语言理解界面上的按钮、选项等元素。例如，在手机上点外卖时，它能先计划点击哪些按钮，然后精准地执行点击，确保订单被正确提交。
自我学习和逐步提升的框架
- AutoGLM 有点像“学得快的小学生”：它在不断挑战自己，从简单到复杂，边学边做，并在过程中改进自己。
- 每次完成任务后，它能够自我评估并找到下一步需要改进的地方。就像一个学生通过“刷题”不断挑战自己，从简单题目到复杂题目，逐步提升成绩。
- 通过这个自我改进的机制，在不同的任务和环境中都能保持稳定的表现，比如在淘宝上购物、预定酒店等任务上，都能越来越得心应手。

动作执行不够精确
- 问题： 智能体在操作屏幕时，可能会因为轨迹不准确而误点击，类似于你想点“支付”却点成了“取消”。
- 解决方法： AutoGLM 使用了解耦设计，把“想做什么”和“怎么做”分开处理。这样它能先想好每一步的操作，再去精准地点击或滑动界面。这让智能体的操作更像人类，减少了错误几率。
任务规划不够灵活
- 问题： 面对复杂的任务（比如在一个新网站上查找特定信息），传统的智能体可能会“卡住”，因为它缺乏灵活应对的能力。
- 解决方法： AutoGLM 使用了一个自进化的学习框架，它在真实环境中边学边做，不断调整策略。就像你第一次用新手机时不太熟练，但用久了就变得越来越快，AutoGLM 也是这样通过不断适应和改进来提升自己。
- 此外，AutoGLM 还会根据自己的表现调整学习难度，确保在应对复杂任务时依然灵活、准确。

在 AndroidLab 评测基准上，AutoGLM 超越了 GPT-4o 和 Claude-3.5-Sonnet，在手机环境中的任务执行表现显著提升。
在 WebArena-Lite 评测基准中，AutoGLM 的任务成功率相对 GPT-4o 提升了约200%，大大缩小了人类与大模型智能体在 GUI 操控上的成功率差距。