AI Agent / 智能体观察笔记(上)
发布时间:2024年06月06日
“想象有这么一帮学生,他们都是虚拟的智能体,每天和“人”一样,与同为智能体的老师在虚拟空间中学习,他们也有自己同为智能体的家人和朋友,会共同生活、交流和娱乐,这事儿怎么样?
这事儿听上去,1)有点奇怪;2)那人跟哪儿呢?
不过毫无疑问,AI Agent(智能体)是当下生成式人工智能在硅谷最受关注的话题。”
第一部分:智能体基本原理学习笔记
01
—
什么是AI Agent
AI Agents可以利用像GPT在内的大语言模型理解目标,生成任务列表,并自动执行任务。在AI 领域,智能体是一个计算机程序或系统,能通过感知其所在的环境、做出决策并采取行动以实现一个特定目标或一系列目标。用户可以使用一个甚至是多个Agents以自动化的方式完成一系列“复杂任务”。
智能体和大语言模型的使用区别
大语言模型:用户输入一个Prompt(提示词),AI根据提示词生成一个结果返回给你,如果你需要AI生成新的内容,你需要再次输入提示词——大语言模型就是这么用的。智能体:用户给一个目标——比如“点外卖”——点外卖实质上是一个复杂任务——Agent会根据这个目标独立思考和行动,它首先根据目标成一个任务列表,然后开始工作,在执行任务的过程中Agent会根据外部环境的反馈(点外卖的时候Agent会自己上美团)不断调整自己的任务列表和完成任务的方法,自己给自己输提示词,通过不断优化最终实现目标。
智能体和自动化生产制造的区别
自动化生产制造所基于的外部环境是充分限定的,制造苹果手机的工序流程是标准的,过程中通过自动化的方式代替一部分人力操作提高效率,所有环节都要尽可能充分可控。工业自动化最大的挑战就是当某个环节发生意外时,总部的工程师就要电话指导生产一线共同解决问题。而智能体所面对的环境天生就是不可控的,智能体会浏览网页、使用app、查阅资料,甚至是直接操作用户的手机 / 电脑去支付款项。完成任务的每一个环节都需要智能体根据外部环境的反馈-思考-调整任务内容。
智能体的主要特征
自主性
智能体可以在没有直接的人类干预或其他软件方法的情况下操作。它控制其活动和内部环境。智能体独立判断它在当前状态下应采取哪些步骤以达到最佳的效能。如果智能体的表现是根据其在学习和自适应情况下的经验来衡量的,那智能体就达到了自主性。
灵活性
反应性:智能体必须识别他们的周围环境并对其中的变化作出反应。
主动性:智能体不应只是对其周围环境作出反应,还应在适当的时候采取主动,并努力实现目标。
社交性:智能体应该与人类或其他虚拟智能体一起工作。
反应性
智能体具备反应性能力,可以与其所处的环境保持持续互动,对环境的变化作出反应。程序内部环境是有保障的,无所谓成功或失败,但外部环境是动态的,事物总是在变化,信息是不完整的。智能体必须为失败的可能性做出准备。
主动性
智能体应主动创建任务列表并实现目标。
使用响应规则
智能体的目标是有针对性的行为,为帮助用户实现目标而行动。
移动性:智能体必须有在系统中进行操作的能力。
真实性:如果智能体的信息是错误的,它将不会沟通。
善意:智能体没有矛盾或冲突的目标。因此,每个智能体总是会尝试做它被要求的事情。
合理性:智能体将执行以实现其目标,并且不会以反对或阻碍它们的方式工作。
学习:智能体必须能够学习。
02
—
AI Agent的工作原理
理解目标:用户给到智能体一个目标后,智能体首先会使用如GPT在内的大语言模型去理解目标——明白自己要干嘛;
制定任务列表:智能体随后会根据实现目标需要完成的一系列工作去制定一个任务计划列表。
收集信息:在执行一个个具体任务的过程中,智能体往往需要与外部环境,如互联网,交互收集信息,有的智能体可以实现与其他AI互动从而把一些任务外包给其他AI。
数据存储:智能体执行任务过程中产生的数据都会被存储起来,这些数据会用于调整优化策略。
反馈与检测:智能体在完成一个个任务的过程中,会基于外部环境的反馈和自我思考检测离完成目标还有多少距离;
一直干:如果还没有完成目标,智能体会“自动并持续”生成更多的任务计划、收集信息、检测和反馈,直到完成目标。
03
—
AI
Agent的技术架构
人工智能可以被定义为是对智能代理(rational agents)的研究。其实任何一个可以做决策的事物都可以是智能代理,包括一个人,公司、机器或者软件系统。代理会根据过往经验和现有信息以实现最优结果去做决策。因此一个人工智能系统的架构可以被描述为:智能体+智能体所处的环境。
智能体在其所处的环境中行动,而环境中可以包含其他智能体。换而言之,智能体可以被认为是:
根据传感器感受它所处的环境;
使用执行器在环境中行动。
智能体的结构
智能体由”设施“和”智能体程序“两者相结合而成。”设施“是智能体执行任务所需要的机器,并由传感器和执行器而组成,如电动车、数码相机或者电脑。而”智能体程序“则是基于感知信息和目标完成各项任务的系统。因此一个智能体可以被描述为:设施+智能体程序。
大多数智能体使用PEAS结构,既Performance (性能), Environment(环境), Actuators(执行器), and Sensors(感应器)的缩写。以一个吸尘器为例:
性能:清洁度和效率
环境:地毯、硬木地板、客厅
执行器:刷子、轮子、吸尘器袋
传感器:污垢检测传感器、撞击传感器
04
—
不同类型的AI Agent
智能体可以根据其特征进行分类,例如它们是反应式还是主动式,它们的环境是固定还是动态的,以及它们是单代理还是多代理系统:
简单反射代理
简单反射智能体智能根据当前的感知来做出反应,而忽略了所有的感知历史。感知历史是智能体所感知的所有内容的记录。这种智能体的功能基于条件—动作规则。如果条件为真,就采取相应的动作,否则不采取。
基于模型的反射代理
该智能体的工作原理是找到与当前情境匹配的规则。它可以通过对世界的模型来处理部分可观察的环境。
基于目标的代理
这类智能体根据它们与目标的距离来做决策。他们的每一个动作都旨在缩短与目标的距离。它们需要搜索和计划,并且可以快速改变行动。
基于效用的代理
这些智能体是以其最终用途为基础开发的。当有多种可能性时,为了决定哪一个是最好的,就使用基于效用的智能体。它们选择基于每种状态的偏好(或效用)的行动。有时,完成现有任务列表无法达到目标,智能体会寻找更快、更安全、更节约成本的途径。
学习代理
这种智能体可以从过去的经验中学习。它开始时只有基础知识,然后通过学习自动地适应和行动。
多智能系统
这些智能体与其他智能体互动以达到共同的目标。它们可能需要协调其行动并与其他智能体交流以实现目标。多智能体系统可以用于各种应用,包括交通系统、机器人和社交网络。
分层智能体
智能体按照层次结构组织,高级智能体监督低级智能体的行为。高级智能体提供目标和限制,而低级智能体执行特定的任务。
05
—
AI
Agent的应用场景和案例
智能个人助理:智能体可以帮助用户完成各类任务,包括安排会议,发信息、设置提醒等。一些不那么智能但是完成此类任务的智能体包括苹果的Siri,亚马逊的Alexa和Google Assistant。
斯坦福大学的“西部小镇”:斯坦福大学和Google的研究员创造了一个虚拟环境,里面生活着25个独特身份性格的智能体。系统会存储每个智能体的记忆并使用提示词给每个智能体一个“活着的意义”。智能体在小镇里面相互交谈,能记住各自间对话和关系的细节,甚至是共同筹备情人节。
智能家居:智能体可以控制智能家居和建筑中的供暖、照明和其他系统,优化能源使用并提高舒适度。
自动机器人:智能体可以在物理世界中可以打扫房间、收拾东西、运输货物等。一些产品包括Roomba的真空扫地机器人和亚马逊的送货机器人。
“具身AI”机器人:智能体通过摄像头和传感器作为自己的传感器感知外部环境,然后使用各类设备作为执行器去完成任务。
担任公司的COO:用户负责把握公司的经营方向,具体运营工作全部委托给智能体,智能体通过和客户、合作伙伴公司AI沟通协作完成工作。
医疗健康:智能体可用于监测患者、提供个性化治疗计划,并优化医疗资源分配。
自动驾驶:智能体可以驾驶汽车从A点到B点,并遵循交通规则。行驶的过程中,智能体还可以和其他车辆、城市的基础设施交互。
金融:在金融行业,智能体可以用于自动交易、欺诈检测和风险管理。
游戏机器人:智能体可以帮助用户打游戏或者和用户对打。
科学研究:用户可以要求智能体搜索资料文献并在数据库中做好管理,自动解读文献生成摘要,甚至是做实验,然后根据研究目标生成研究成果。
社交媒体:智能体可用于分析社交媒体数据,识别趋势和模式,并为用户提供个性化推荐。
06
—
基于AI Agent的产品
很不幸,现在AI Agent还没办法替你赚钱,但是确实已经能干点活儿了。
通用型智能体
AppAI Agent:用户可以在平台上创建一个自己的智能体,你需要给自己的智能体取一个名字、设定一个目标,以及要使用的大语言模型(如GPT等)。智能体会创建一系列任务列表去实现目标,用户可以编辑或者调整任务。
AgentGPT:用户可以创建并管理多个智能体。
HyperWrite Assistant:一个基于Chrome浏览器的智能体。
线上研究智能体
aomni:智能体会根据用户设定的调研主题和目标制定一个线上调研任务列表,然后自行在网上查询、理解、总结信息。
Toliman AI:智能体可以在网上搜索信息然后生成内容,用户还可以选择需要多少参考文献或来源来支撑调研报告。
开发AI工具的智能体
Fine-Tuner: 智能体可以帮助用户以无代码方式开发AI系统,此外智能体还具备其他特性:
文件对话Bot:用户把文件资料上传给Bot,以后需要查询了解任何涉及到文件的信息内容,只需要和Bot提问即可;
Embeddings:帮助用户把数据转换为向量数据库,方便用户使用库做机器学习;
Fine-tuning:帮助用户基于一个通用大语言模型(如GPT)做调优从而让LLM更符合特定需求。
待办事项智能体
Spellpage:用户把待办事项输入给智能体,智能体自动帮助你梳理完成待办事项需要完成哪些任务。
Do Anything Machine:帮助用户自动完成任务,并把工作结果同步到Notion或者Google日历。
面向开发者的智能体
BabyAGI:可以本地部署的智能体,能够根据目标生成任务列表并执行任务。
LangChain:一套技术栈可以帮助开发者快速开发基于大语言模型的应用。Pinecone:面向开发者易于使用的向量数据库。
AutoGPT:应用GPT-4的能力,可以根据用户目标持续生成任务并执行的智能体。
出自:https://mp.weixin.qq.com/s/5P5EKUVRVWiklSThdUM1zg
MakeGirlsMoe,开源的动漫角色图片生成工具,AI生成二次元美少女头像。