AI Agent行业深度:框架拆解、应用方向、应用领域及相关公司深度梳理!
发布时间:2024年06月06日
随着大型模型在各行各业的广泛应用,基于大型模型的人工智能体(AI Agent)迎来了快速发展的阶段。研究AI Agent是人类不断接近人工通用智能(AGI)的探索之一。随着AI Agent变得越来越易用和高效,"Agent+"的产品越来越多,未来AI Agent有望成为AI应用层的基本架构,涵盖toC和toB产品等不同领域。
那么,AI Agent是什么?与其它人类与AI协同模式相比有何不同?其框架结构是怎样的?目前AI Agent的应用方向是什么?未来哪些领域可以应用AI Agent?此外,又有哪些公司在该领域有所布局?AI Agent行业还面临哪些挑战?本篇研报将围绕以上问题展开探讨,旨在帮助读者能够了解AI Agent行业。
01
AI Agent概述
1、AI Agent概念
AI Agent(人工智能代理)是一种能够感知环境、进行决策和执行动作的智能实体。不同于传统的人工智能,AI Agent具备通过独立思考、调用工具去逐步完成给定目标的能力。比如,告诉AI Agent帮忙下单一份外卖,它就可以直接调用APP选择外卖,再调用支付程序下单支付,无需人类去指定每一步的操作。
2、AI Agent对比其它人类与AI协同模式的区别
AI Agent较目前广泛使用的Copilot模式更加独立。对比AI与人类的交互模式,目前已从过去的嵌入式工具型AI(例如Siri)向助理型AI发展,目前的各类AI Copilot不再是机械地完成人类指令,而是可以参与人类工作流,为诸如编写代码、策划活动、优化流程等事项提供建议,与人类协同完成。而AI Agent的工作仅需给定一个目标,它就能够针对目标独立思考并做出行动,它会根据给定任务详细拆解出每一步的计划步骤,依靠来自外界的反馈和自主思考,自己给自己创建prompt,来实现目标。如果说Copilot是“副驾驶”,那么Agent则可以算得上一个初级的“主驾驶”。
3、Agent的最终发展目标为“通用人工智能AGI”
AI Agent并不是一个新兴的概念,早在多年前就已在人工智能领域有了研究。例如2014年由DeepMind推出的引发全球热议的围棋机器人AlphaGo,也可以看做是AI Agent的一种。与之类似的还有2017年OpenAI推出的用于玩《Dota2》的OpenAI Five,2019年DeepMind公布用于玩《星际争霸2》的AlphaStar等,这些AI都能根据对实时接收到的信息的分析来安排和规划下一步的操作,均满足AI Agent的基本定义。当时的业界潮流是通过强化学习的方法来对AI Agent进行训练,主要应用场景是在游戏这类具有对抗性、有明显输赢双方的场景中。但如果想要在真实世界中实现通用性,基于当时的技术水平还难以实现。
大语言模型的浪潮推动了AI Agent相关研究快速发展,经过四大发展阶段,逐步具备了高效推理、灵活行动、强大的泛化以及无缝任务转移的能力。
发展历程:AI Agent经历了符号智能体、反映型智能体、基于强化学习的智能体、具有迁移学习和元学习功能的智能体四大发展阶段,现在已经跨入基于大型语言模型的智能体阶段。
具备的优势:大语言模型为AI Agent带来了突破性的进展,同时具备了以上四大发展阶段的优势:1)通过思维链(CoT)和问题分解等技术,基于LLM的智能体可以表现出与符号智能体相当的推理和规划能力;2)通过从反馈中学习和执行新的行动,获得与环境互动的能力,类似于反应型智能体;3)大型语言模型在大规模语料库中进行预训练,并显示出泛化与迁移学习的能力;4)从而实现任务间的无缝转移,而无需更新参数。
通往AGI的道路仍需探索,AI Agent是当前的主要路线。在大模型浪潮席卷全球之时,很多人认为大模型距离真正的通用人工智能AGI已经非常接近,很多厂商都投入了基础大模型的研究。但经过了一段时间后,大家对大模型真实的能力边界有了清晰的认知,发现大模型仍存在大量的问题如幻觉、上下文容量限制等,导致其无法直接通向AGI,于是AI Agent成为了新的研究方向。通过让大模型借助一个或多个Agent的能力,构建成为具备自主思考决策和执行能力的智能体,来继续实现通往AGI的道路。AI Agent将是未来AI的前沿方向。
4、应用两大方向:自动化(自主智能体)、拟人化(智能体模拟)
结合目前学术界和产业界基于LLM开发的AI AGENT应用情况,能够将AI AGENT划分为两大类:
自主智能体,力图实现复杂流程自动化。当给定自主智能体一个目标时,它们能自行创建任务、完成任务、创建新任务、重新确定任务列表的优先级、完成新的首要任务,并不断重复这个过程,直到完成目标。准确度要求高,因而更需要外部工具辅助减少大模型不确定性的负面影响。
智能体模拟,力图更加拟人可信。分为强调情感情商的智能体以及强调交互的智能体,后者往往是在多智能体环境中,可能涌现出超越设计者规划的场景和能力,大模型生成的不确定性反而成为优势,多样性使其有望成为AIGC重要组成部分。
能够认为两大方向并不是完全割裂的,相反,自动化与拟人化将作为AI Agent两大核心能力并行发展,随着底层模型成熟以及行业探索更加深入,有望进一步扩大AI Agent适用范围,提升其实用性。
02
AI Agent框架拆解
一个基于大模型的AI Agent系统可以拆分为大模型、规划、记忆与工具使用四个组件部分。6月,OpenAI的应用研究主管Lilian Weng撰写了一篇博客,认为AI Agent可能会成为新时代的开端。她提出了Agent=LLM+规划技能+记忆+工具使用的基础架构,其中LLM扮演了Agent的“大脑”,在这个系统中提供推理、规划等能力。
1、大模型+规划:Agent的“大脑”,通过思维链能力实现任务分解
LLM具备逻辑推理能力,Agent可以将LLM的逻辑推理能力激发出来。当模型规模足够大的时候,LLM本身是具备推理能力的。在简单推理问题上,LLM已经达到了很好的能力;但在复杂推理问题上,LLM有时还是会出现错误。事实上,很多时候用户无法通过LLM获得理想的回答,原因在于prompt不够合适,无法激发LLM本身的推理能力,通过追加辅助推理的prompt,可以大幅提升LLM的推理效果。在《Large language models are zero-shot
reasoners》这篇论文的测试中,在向LLM提问的时候追加“Let’s think step by step”后,在数学推理测试集GSM8K上的推理准确率从10.4%提升到了40.7%。而Agent作为智能体代理,能够根据给定的目标自己创建合适的prompt,可以更好地激发大模型的推理能力。
通常情况下,一项复杂的任务往往涉及许多步骤。AI Agent需要首先拆解这些步骤,并提前做好计划。任务的分解的环节可以由三种方式完成:1)在大模型输入简单的提示,比如“XYZ的步骤”,或者“实现XYZ的子目标是什么?”;2)使用特定任务的指令,比如在需要写小说的时候要求大模型“写一个故事大纲”;3)通过人工提供信息。当下普遍的技术模式包括思维链和思维树:
思维链(Chain of Thoughts)已成为一种标准的提示技术,用于提高模型在复杂任务中的表现。模型被要求“一步一步地思考”,将艰巨的任务分解为更小更简单的步骤。思维链将大任务转化为多个可管理的任务,并帮助人们理解模型的思维过程。
思维树(Tree of Thoughts)通过在任务的每一步探索多种推理可能性来扩展思维链。它首先将问题分解为多个思考步骤,并在每个步骤中生成多个想法,从而创建一个树状结构。搜索过程可以是BFS(广度优先搜索)或DFS(深度优先搜索)。
另一方面,试错和纠错在现实世界的任务决策中是不可避免且至关重要的步骤。自我反思帮助AI Agent完善过去的行动决策、纠正以前的错误、从而不断改进。当下的技术包括ReAct、Reflexion、后见链(Chain of Hindsight)等:
ReAct:将任务中单独的行为和语言空间组合在一起,从而使大模型的推理和行动融为一体。该模式帮助大模型与环境互动(例如使用维基百科搜索API),并以自然语言留下推理的痕迹。
Reflexion:一个让AI Agent具备动态记忆和自我反思能力以提高推理能力的框架。沿用了ReAct中的设置,并提供简单的二进制奖励。每次行动后,AI Agent都会计算一个启发式函数,并根据自我反思的结果决定是否重置环境以开始新的试验。这个启发式的函数可以判断是否当下的路径效率低下(耗时过长却没有成功)或包含幻觉(在环境中遇到一连串导致相同观察结果的相同行动),并在出现这两种情况下终止函数。
后见链(Chain of Hindsight):通过向模型明确展示一系列过去的输出结果,鼓励模型改进自身的输出结果,使得下一次预测的行动比之前的试验取得更好的成绩。算法蒸馏(Algorithm Distillation)将同样的理念应用于强化学习任务中的跨集轨迹。
2、记忆:用有限的上下文长度实现更多的记忆
记忆模块负责存储信息,包括过去的交互、学习到的知识,甚至是临时的任务信息。对于一个智能体来说,有效的记忆机制能够保障它在面对新的或复杂的情况时,调用以往的经验和知识。例如,一个具备记忆功能的聊天机器人可以记住用户的偏好或先前的对话内容,从而提供更个性化和连贯的交流体验。
对AI智能体系统的输入会成为系统的记忆,与人类的记忆模式可实现一一映射。记忆可以定义为用于获取、存储、保留以及随后检索信息的过程。人脑中有多种记忆类型,如感觉记忆、短期记忆和长期记忆。而对于AI Agent系统而言,用户在与其交互过程中产生的内容都可以认为是Agent的记忆,和人类记忆的模式能够产生对应关系。感觉记忆就是作为学习嵌入表示的原始输入,包括文本、图像或其他模态;短期记忆就是上下文,受到有限的上下文窗口长度的限制;长期记忆则可以认为是Agent在工作时需要查询的外部向量数据库,可通过快速检索进行访问。目前Agent主要是利用外部的长期记忆,来完成很多的复杂任务,比如阅读PDF、联网搜索实时新闻等。任务与结果会储存在记忆模块中,当信息被调用时,储存在记忆中的信息会回到与用户的对话中,由此创造出更加紧密的上下文环境。
为了解决有限记忆时间的限制,通常会用到外部存储器。常见的做法是将信息的嵌入表示保存到可支持快速的最大内积搜索(MIPS)的向量存储数据库中。向量数据库通过将数据转化为向量存储,解决大模型海量知识的存储、检索、匹配问题。向量是AI理解世界的通用数据形式,大模型需要大量的数据进行训练,以获取丰富的语义和上下文信息,导致了数据量的指数级增长。向量数据库利用人工智能中的Embedding方法,将图像、音视频等非结构化数据抽象、转换为多维向量,由此可以结构化地在向量数据库中进行管理,从而实现快速、高效的数据存储和检索过程,赋予了Agent“长期记忆”。同时,将高维空间中的多模态数据映射到低维空间的向量,也能大幅降低存储和计算的成本,向量数据库的存储成本比存到神经网络的成本要低2到4个数量级。
Embedding技术和向量相似度计算是向量数据库的核心。Embedding技术是一种将图像、音视频等非结构化数据转化为计算机能够识别的语言的方法,例如常见的地图就是对于现实地理的Embedding,现实的地理地形的信息其实远远超过三维,但是地图通过颜色和等高线等来最大化表现现实的地理信息。在通过Embedding技术将非结构化数据例如文本数据转化为向量后,就可以通过数学方法来计算两个向量之间的相似度,即可实现对文本的比较。向量数据库强大的检索功能就是基于向量相似度计算而达成的,通过相似性检索特性,针对相似的问题找出近似匹配的结果,是一种模糊匹配的检索,没有标准的准确答案,进而更高效地支撑更广泛的应用场景。
3、工具:懂得使用工具才会更像人类
AI Agent与大模型的一大区别在于能够使用外部工具拓展模型能力。懂得使用工具是人类最显著和最独特的地方,同样地,也可以为大模型配备外部工具来让模型完成原本无法完成的工作。ChatGPT的一大缺点在于,其训练数据只截止到了2021年底,对于更新一些的知识内容它无法直接做出回答。虽然后续OpenAI为ChatGPT更新了插件功能,能够调用浏览器插件来访问最新的信息,但是需要用户来针对问题指定是否需要使用插件,无法做到完全自然的回答。AI Agent则具备了自主调用工具的能力,在获取到每一步子任务的工作后,Agent都会判断是否需要通过调用外部工具来完成该子任务,并在完成后获取该外部工具返回的信息提供给LLM,进行下一步子任务的工作。OpenAI也在6月为GPT-4和GPT-3.5更新了函数调用的功能,开发者现在可以向这两个大模型描述函数,并让模型智能地选择输出包含调用这些函数的参数的JSON对象。这是一种更可靠地将GPT的功能与外部工具和API相连的新方法,允许开发者更可靠地从模型中获得结构化的数据,为AI开发者提供了方便。
当下,使用工具的范例AI Agent之一为HuggingGPT。HuggingGPT将模型社区HuggingFace和ChatGPT连接在一起,形成了一个AI Agent。2023年4月,浙江大学和微软联合团队发布了HuggingGPT,它可以连接不同的AI模型,以解决用户提出的任务。HuggingGPT融合了HuggingFace中成百上千的模型和GPT,可以解决24种任务,包括文本分类、对象检测、语义分割、图像生成、问答、文本语音转换和文本视频转换。具体步骤分为四步:
1)任务规划:使用ChatGPT来获取用户请求;2)模型选择:根据HuggingFace中的函数描述选择模型,并用选中的模型执行AI任务;3)任务执行:使用第2步选择的模型执行的任务,总结成回答返回给ChatGPT;4)回答生成:使用ChatGPT融合所有模型的推理,生成回答返回给用户。
03
自主智能体:自动化,新一轮生产力革命
1、软件新范式,非大模型玩家亦有机会
自主智能体,力图实现复杂流程自动化。真格基金管理合伙人戴雨森将AI和人类协作的程度类比为自动驾驶的不同阶段,AI Agent约为自动驾驶的L4阶段,Agent完成任务,人进行外部辅助和监督。
自主智能体有望带来软件行业交互方式和商业模式变革:交互方式变革:相比过去的APP/软件,从人适应应用变成应用适应人,Agent的决策/规划/执行等环节需要更深的用户需求理解以及更强的工程细节打磨。如目前Agent运行中常常遇见无休止的扩展、误解输出格式等问题,这类问题不单单依靠大模型能力提升,对Agent架构的设计和垂类数据的学习也有要求。商业模式变革:按服务内容收费转换成按token收费,对Agent功能实用性要求更高。
基座大模型能力固然重要,但其只能解决下限问题,在实际企业应用场景中自主智能体的架构设计、工程能力、垂类数据质量等也至关重要,垂类/中间件玩家亦有机会。准确度和效率是自主智能体重要指标(决策式AI更擅长做的事,也意味着更低的容错度),企业对于低门槛定制AGENT也存在需求,专注具体领域/提供AGENT框架的玩家仍有可为。
2、实验性VS实操性,单智能体VS多智能体
目前行业内对自主智能体的探索主要分为四大类:
实验性项目VS实操性应用:前者虽然实际运行中出错概率高,但其创意、思路和开发经验对开发者仍有不少启发和贡献,如掀起这一波AGENT开发热潮的AutoGPT。实操性应用更加强调与实际场景的适配。
单智能体VS多智能体:单智能体相对更适用于较简单的任务(如比价等),在C端应用上有一定潜力(如chatgpt+插件、adeptai等);但其在B端场景上略显乏力,由于缺乏完整性评估、任务队列过长、大模型幻觉等原因,基本无法完成较为复杂的工作(如软件开发等),多智能体优势相对更加突出(如metagpt、chatdev等)。
(1)单智能体1:实验性项目
1)AutoGPT
AutoGPT是2023年3月开源的第一款AI AGENT实验性项目,由游戏开发者Toran Bruce Richards开发。AutoGPT可根据用户给定的目标,自动生成所需提示,并利用GPT4和各种工具API执行多步骤的项目,无需人类的干预和指导。上线5个月在github上的STAR数量已超过149K,具有一定代表性,对后来各种AGENT发展具有启发意义。
使用多个外部工具:1)能克隆github仓库、启动其他agent、发言、发送推文和生成图片,支持所有矢量数据库和LLM提供商/文本到图片模型/浏览器。2)通过集成Pinecone数据库,它可进行长期内存存储,从而保存上下文并基于此进行决策改进。3)通过python内部List结构,保存text文本,每次会获取最近一次的历史信息。
应用场景偏向于办公/开发类(自动化流程工作流、进行深入市场研究、写代码/程序、开发网站或APP),但实操效果一般,容易陷入死循环。
2)代码开发类GPTEngineer
GPT
Engineer是主要作者Anton Osika在6月11日推出的开源代码生成工具,基于GPT模型,能根据用户的指示和需求生成高质量的代码,功能包括创建新函数、修复现有代码错误等等,支持多种编程语言。截至2023年9月,github星星数量接近44k。
亮点一:可定制性。用户可根据自己的编码风格、项目需求和编程习惯进行设置,让GPT Engineer生成符合自身要求的代码。
亮点二:上下文感知。可理解代码上下文,并生成与之相适应的代码片段,用户无需为适应其生成方式而做出额外调整,从而提高工作效率。
不足:1)无法进行迭代,在创建完应用程序后不能要求它更改任何内容。2)构建复杂的代码时仍需要一些编码经验。
3)科研类GPT Researcher
GPT
Researcher是哥伦比亚大学研究团队推出的AI Agent项目,专门用于网络科研任务,能够生成详尽、精确且客观的研究报告。已在github上开源,截至2023年9月github星星数量超过4k。
GPT
Researcher首先生成一系列研究问题,然后触发网络爬虫Agent从在线资源中搜集与任务相关的信息。每个获取的资源都会进行总结,并追踪其来源。最终,所有的资源都会被筛选、汇总,形成一份完整的研究报告。主要优势在于能够快速地完成研究任务。
4)创作类ShortGPT
ShortGPT可实现自动编辑框架;编辑脚本和提示;创建配音/内容;生成字幕;从互联网上获取图像和视频片段,并根据需要与网络和Pexels API连接;确保使用TinyDB自动编辑变量的长期持久性等。
(2)单智能体2:实现交互变革,中心化应用
1)功能升级后的ChatGPT
插件:3月份在ChatGPT plus版本GPT4模型中增加的功能,截至9月插件近900个,覆盖办公、编程、搜索、购物、本地生活等多个领域,但受限于chatgpt输入token长度的限制,每次最多启动3个插件。插件功能有效拓展了chatgpt适用领域,其中联网插件改善了大模型幻觉和数据过时等问题,但chatgpt目前只提供信息参考,还无法直接替用户转到相关应用中进行操作。
高级数据分析:7月份openai向ChatGPT plus所有用户开放“代码解释器”功能(现“高级数据分析”功能,与插件功能平行),能编写和执行python代码并能处理文件上传。高级数据分析功能提高了chatgpt处理复杂任务的能力以及数学推理这类回答的准确度。
自定义指令功能。7-8月向所有chatgpt用户推出,用户可以预设自己的身份以及期望机器人在回复中所需要遵守的指令。如软件程序员可要求ChatGPT用指定的语言回答问题,且无需解释。该功能进一步提高chatgpt个性化水平,改善大模型容易遗忘前期信息的问题。
多模态输入:9月OpenAI宣布即将开始在ChatGPT中推出新的语音和图像功能,允许用户进行语音对话,或向ChatGPT输入图像。OpenAI将在ChatGPT中向Plus和Enterprise用户推出语音和图像。多模态输入将进一步降低chatgpt的使用门槛,扩大其使用范围,向“个人助理”的方向更进一步。
企业版本:提供无限速的GPT-4访问权限;支持32K上下文输入;高级数据分析功能(代码解释器),自定义选项等。Openai在B端应用和商业化有望加速。
2)adept AI
AI初创公司Adept在22年9月发布大型行动模型ACT-1,ACT-1以桌面对话框形式存在,用户与网页的交互方式从过去的鼠标/键盘改变为自然语言。用户可在电脑随时调用,在文本框中输入命令,ACT-1会一步步自动完成操作,在需要时可以跨多个工具进行协调,用户反馈后也可即时修改错误。
使用示例:在google
sheet中创建上一季度损益栏、在“22年”列更新收入总值、增加一列展示平均支出;在salesforce中添加某产品为新产品、添加某人为新联系人、设置提醒在某个时间点给某人发邮件;在某交易平台上帮找适合的商品
(3)单智能体3:实现交互变革,可定制、平台化
1)Cortex
Cortex是Kinesys
AI发布的产品,可在用户自己数据上构建AI Co-pilot,使团队能够使用自己私有数据源构建定制的AI助手,按使用量计费。
Cortex可将GPT4等多个不同大模型组合使用,且为了让专一领域大模型更实用,Cortex会采取调用向量数据、实时联网搜索、调用指定API等方式。在同一公司内部,同一份原始信息Cortex能获取每个人岗位所需要关键点,以特定格式输出,即根据业务部门的不同而“千人千面”。
客户群体:适用于个人开发者和早期初创企业,帮助他们大大减少从调试开始的工作量。目前有10多家付费用户和上千个人用户。案例:某网红SaaS公司使用Cortex,让网红们以特定的人设和粉丝们聊天。
2)MindOS
MindOS是心识宇宙发布的多功能的AI Agent引擎和平台,用户可在3分钟内开发具有独特记忆、个性和专业知识的可定制agent“Genius”,提供超过1000个带有性格、功能的预置Genius,准确推断意图的准确率达到97%。目前平台已提供Marketplace(分享和发现Genius)、Workflow(支持用户仅通过拖放和简单的配置来构建Genius)、Structured Memory(从对话中沉淀结构化信息),未来还会拓增包括Deep Thinking(深度思考)、Self Learning(自主学习)和Teamwork(团队协作)等板块。
商业化方案:增值服务,平台增量价值定价在9.99美元/月。
MindOS试用:显示思维链和相关链接,回答信息丰富。
(4)多智能体:AGENT团队完成复杂开发任务
1)MetaGPT
MetaGPT是7月深度赋智开源的多智能体框架,快速帮助用户搭建属于自己的虚拟公司,虚拟公司中的员工都是智能体,如软件公司中的工程师、产品经理、架构师和项目经理,用户只需输入简短的需求,MetaGPT就能输出整个软件公司的工作流程和详细的SOP,如创造故事、竞品分析等。
框架分为基础组件层和协作层。(1)基础组件层建立单个AGENT操作和全系统信息交换所需的核心构件,其中环境可实现共享工作空间和通信;记忆用于存储和检索历史信息;角色封装特定领域的技能和工作流程;工具提供通用服务和实用程序。(2)协作层建立在基础组件层之上,协调单个AGENT协同解决复杂问题,建立了重要的合作机制知识共享和封装工作流。知识共享允许AGENT交换信息,存储、检索和共享不同粒度的数据;封装工作流程利用SOP将复杂任务分解为更小、更易于管理的组件,将这些子任务分配给合适AGENT,并通过标准化输出监督他们的表现,确保他们的行动符合总体目标。
横向对比,MetaGPT的实操价值更高。在github开源2个月STAR数量已超过24K。对比大模型:根据实验结果,基于GPT4-32k、使用4个AGENT(工程师+产品经理+架构师+项目经理)的MetaGPT在开源数据集MBPP和HumanEval上的单次尝试通过率好于其他代码生成LLM(包括GPT4、CODEX等)。对比其他AGENT:MetaGPT的独特之处在于它能生成产品需求文档和技术设计,从而展示其项目执行的整体方法,在游戏、网络开发和数据分析等各种场景下有更强的通用性。根据实验结果,MetaGPT在为项目执行提供更全面、更强大的解决方案方面优于AutoGPT、Agentverse、LangChainw/Python REPL tool等同类产品。
低成本低门槛开发简易软件项目。在实验的7个任务(包括Python游戏生成、CRUD代码生成和简单数据分析)中,每个项目平均消耗26.6ktoken用于prompt,任务完成后消耗6.2ktoken,总成本1.09美元,耗时8-9分钟,时间和财务支出不到传统软件工程开发的千分之一。
不足:MetaGPT偶尔会引用不存在的资源文件,在执行复杂任务时容易调用未定义或未导入的类或变量。这些现象普遍归因于大型语言模型固有的幻觉倾向,可以通过更清晰、更高效的AGENT协作工作流程来处理。
2)ChatDev
ChatDev是清华大学NLP实验室孙茂松教授指导,联合面壁智能、北京邮电大学、布朗大学研究人员共同发布的、大模型驱动的全流程自动化软件开发框架,可以理解为对话驱动的虚拟软件开发公司,在人类“用户”指定一个具体任务需求后,不同角色智能体将进行交互式协同,以生产一个完整软件(包括源代码、环境依赖说明书、用户手册等)。
模型方面,接入gpt3.5-turbo-16k版本的ChatGPT API,在Camel指令跟随对话数据集中随机挑选了70个任务,作为CHATDEV软件开发的分析基础。
驱动智能体对话的3个关键机制:1)角色专业化:通过角色扮演机制确保每个智能体各司其职,在指定的专业角色下完成相应的方案提议和决策讨论。2)记忆流:保存每轮对话记录,供各个智能体随时翻阅,确保思路的连贯性。2)自反思:智能体完成各自工作但没有达到要求时,生成一个「伪我」,将问题和有关对话向instructor进行反馈。
CHATDEV为软件开发提供了一种无需培训、高效且具有成本效益的新范式。CHATDEV软件平均生产时间不到7分钟(传统定制软件开发周期,即使使用敏捷软件开发方法每个周期通常也需要2-4周甚至几个月时间),制造成本不到0.3美元,在提高制作效率的同时成本也大大低于传统定制软件开发公司的费用。
提供具体/特定说明更有利于发挥CHATDEV功能,目前技术更适用于中小软件。1)当用户指定一个不太具体的任务时,CHATDEV生成的源代码往往更短(不具体任务代码平均值110.97行VS总体平均值131.61行)。为充分发挥CHATDEV作用,研发团队建议向CHATDEV提供特定说明(如所需的软件功能系统规则、UI设计和其他详细规范等),通过提供更清晰、更具体的说明,用户可以指导CHATDEV生成符合其特定要求的更全面和量身定制的代码。2)因为AGENT自主决定具体实现细节的能力有限,会导致多轮冗长的讨论;且大规模软件开发对审查人员和测试人员都具有挑战性,因为很难在给定的时间限制内找出缺陷或漏洞。因此目前CHATDEV更多对初级程序员或工程师有用,要为高级或大型软件需求生成完美源代码仍具有挑战性。
潜在风险和限制:1)大模型固有的随机性使得软件生产过程具有一定的不确定性。2)设计师对GUI进行图像创作的过程,对各个图像素材均独立生成的,因此可能会GUI配图不自然;3)大模型可能会表现出固有偏差,导致生成的代码模式不一定符合实际程序员解决问题的思路。
3)Showrunner
7月份,艾美奖得主初创公司Fable发布名为SHOW-1的Showrunner AI技术,用其制作出一集完全用AI拍摄的《南方公园》。通过自然语言给不同智能体分配各自目标,人类导演只需给出一个高层次的构思提示(标题、概要、事件),AI智能体会开始「自导自演」。不同AI智能体担任不同的角色,有独特的背景故事、个性和动机,如演员、导演、剪辑等,彼此分工合作,互相配合,最终完成整部影片的制作。
底层模型:基于两个在《南方公园》数据集(约1200个角色和600张场景)上训练的自定义扩散模型,可以生成新角色和新场景;一个超分辨率模型(R-ESRGAN-4x+-Anime6B)可以将场景放大;语音克隆AI可给角色即时配音。
记忆能力:在多智能体无梯度架构驱动下,每个角色的完整经历都会被存储为自然语言。随着时间的推移,这些记忆会被合成更高层次的反射,随时动态检索,来实时计划每个角色的行为。
模拟创造性思维:模拟产生的数据为撰写初始提示的用户和与LLM进行提示链交互的生成故事系统提供创新基础。其中,提示链通过向语言模型提供一系列相关的提示,来模拟持续的思维过程。如,它可以在每一步中扮演不同的角色,对前一个提示和生成的结果进行判别。
04
智能体模拟:拟人化,新的精神消费品
1、陪伴类,提供情绪价值
陪伴类智能体强调情感情商等人类特征,具有“人格”,且能够记住与用户的历史交流。(1)LLM在自然语言理解能力上的重要突破使陪伴类智能体在技术上成为可能,(2)GPT4在情商上显著高于以往其他大模型,随着大模型情商迭代、多模态技术发展,有望出现更加立体拟人可信、能够提供较高情绪价值的陪伴智能体。
目前国内情绪消费市场仍有较大想象空间(社会婚姻观念转变、现代工作生活节奏紧张下,国民孤独感增加),陪伴类智能体或受益于情绪消费趋势红利,成为LLM时代重要的AI原生应用。从用户陪伴性需求的第一性原理出发,预计陪伴类智能体大部分商业价值集中在IP上,基于此当前具备丰富IP储备或者能让用户定制智能体的玩家前景广阔:
1)参考人的陪伴:陌生人社交和秀场直播属于线上陪伴代表性应用,前者核心问题在于用户间建立一定情感联系后会转到最常用的社交平台,后者用户价值会逐渐集中到头部主播,而非平台。
2)参考物的陪伴:潮玩等消费品有一定的陪伴属性,受众大部分支出花在自己喜欢的IP。
(1)InflectionAI:高情商个人AI——Pi
Inflection AI推出主打情感陪伴的个人AI——Pi。Inflection AI是一家成立于2022年的人工智能初创公司,目前公司的估值已经突破40亿美元,在人工智能领域仅次于OpenAI。在2023年5月,公司推出了旗下的个人AI产品Pi。与ChatGPT不同,Pi从未以专业性与替代人工作为宣传。它不能写代码,也不能帮我们生产原创内容,与时下流行的通用聊天机器人相反,Pi只能进行友好的对话,提供简洁的建议,甚至只是倾听。它的主要特征是富有同情心、谦虚好奇、幽默创新,具有良好的情商,可以根据用户的独特兴趣和需求提供无限的知识与陪伴。Inflection自开发Pi开始,就确定了Pi将作为个人智能(Personal Intelligence),而不仅仅是辅助人工作的工具。
Pi的核心是公司研发的Inflection-1大模型,性能媲美GPT-3.5。Inflection-1是Inflection AI推出的大模型,根据公司的评估测试,Inflection-1在多任务语言理解、常识问题等多项测试中的性能都略胜于GPT-3.5、LLaMA等常用的大模型,但在代码能力上要落后于GPT-3.5。不过这是公司的差异化竞争所在,Pi作为一个以情感陪伴为主的Agent并不需要拥有很强的代码和辅助工作能力。
和辅助工作的Agent不同,Pi能够满足更多的情感陪伴需求。作为一个具有高情商的AI Agent,Pi能够以更加日常和生活化的语言和用户进行交流,而不是以一个冰冷的工作AI的口吻。Pi的回复非常贴近生活,语气十分得体,而它对你当下状态和事态发展的关心就像心理医生或者你最好的朋友。当Pi在回复可能带有负面情绪的问题时,它也会避免使用任何俏皮的表情或者轻快的口吻去冒犯用户。它甚至会在回复中使用emoji,让用户觉得更像是和真正的人类在进行对话一样。Pi还能够记住与用户的对话内容,并随着时间的推移而更加了解用户。Pi的出现,弥补了传统型人工智能对人类情绪欲望的忽视。能够认为,类似于Pi这样能够提供情绪价值的个人AI Agent存在着较大的市场空间。
(2)平台化娱乐化,如Character.AI、Glow等
Character.AI:创立于2021年10月,创始团队是来自Google Brain和Meta AI的深度学习、大型语言模型和对话领域的专家。2022年9月推出Beta版产品,采用了GPT-3大模型,并用大量的书籍、电影和其他媒体中的虚构人物数据进行训练,使聊天机器人能够根据人物的个性和特征生成对话和文本响应。用户可以在其平台上创建AI机器人并与之聊天。根据Character.AI官方披露信息,Beta版本推出2个月后,每天生成10亿个单词,截至2022年12月,用户已创建超35万个机器人,涵盖信息检索、教练、教育、娱乐等领域。
其他类似产品:Replika、Glow等。
2、重交互,提高用户体验
交互智能体:强调与环境交互的能力,智能体与智能体/虚拟世界内事物之间可互动,可能涌现出超越设计者规划的场景和能力,大模型不确定性反而成为优势,有望成为AIGC重要部分。特别是对开放世界游戏等行业,创建可信agent(大部分为可信NPC)的目的是提供一种生命的幻觉,做出决策并按自己的意愿行事,从而呈现出一种真实感,可增强玩家沉浸感,解决开放世界内容消耗快的问题;可信agent技术成熟后可能会孵化出新的游戏品类。
(1)单智能体:游戏世界AI玩家,如Voyager
Voyager是第一个大模型驱动,可以终身学习的游戏智能体。2023年5月,英伟达开源了Voyager这一游戏智能体。英伟达将Voyager用在了《我的世界》这款游戏中,《我的世界》没有强加一个预定的最终目标或固定的故事情节,而是提供了一个具有无限可能性的独特游乐场。一个高效的终身学习Agent应该具有与人类玩家类似的能力,能够根据当前技能水平和世界状态发现合适的任务,能够根据反馈学习和完善技能,不断探索世界。英伟达采用了“无梯度”的Agent训练方法,基于GPT-4的Voyager在游戏里表现优异,获得的独特物品增加了3.3倍,行进距离增加了2.3倍,解锁关键科技树里程碑的速度比之前的方法快了15.3倍。
Voyager由自动课程、技能库和迭代prompt机制三个新型组件构成。Voyager的架构与第二章提到的AI Agent基本组件相差较大:自动课程用于提出开放式的探索目标,该课程是由GPT-4根据“尽可能多发现不同的东西”的总体目标生成的,会根据探索进度和Agent状态使得探索实现最大化;技能库用于开发越来越复杂的行为,通过存储有助于成功解决某个任务的行动程序,Voyager逐步建立起一个技能库,未来可以在类似情况下进行检索。这些技能是用可执行的代码来表示的,复杂的技能则可以通过组成更简单的程序来合成。这种做法可以让Voyager的能力随着时间的推移迅速增强,并缓解“灾难性遗忘”问题;迭代prompt机制引入了环境反馈、执行错误和检查任务是否成功的自我验证三种类型的反馈,根据这些反馈,GPT-4可以自己去迭代更新prompt,直到生成的prompt足以去完成当前任务。
Voyager的性能显著强于别的Agent框架,但成本也高居不下。英伟达的研究者们系统对比了Voyager和别的Agent框架的的探索性能、科技树的掌握情况、地图覆盖率等指标,Voyager的性能具备显著优势。和别的Agent框架相比,Voyager解锁科技树(木制工具→石制工具→铁制工具→钻石工具)的速度最快,且是唯一能够解锁钻石等级科技树的模型。Voyager的探索地图范围也是别的Agent框架的2.3倍,发现新知识的能力大大增强。虽然Voyager具备强大的性能,但是其成本开销也是巨大的,由于Voyager需要使用GPT-4强大的代码生成能力,导致其成本无法降下来。同时大模型的“幻觉”问题仍然存在,比如自动课程会提出一些无法完成的任务等。但即便如此,众多业界学者仍认为Voyager是AI Agent领域的一大突破进展,离真正的AGI又更近了一步。
(2)多智能体:Smallville小镇、网易《逆水寒》手游、昆仑万维《ClubKoala》虚拟世界
1)多智能体:Smallville小镇,类西部世界的模拟社会
斯坦福西部世界小镇首次创造了多个智能体生活的虚拟环境。2023年4月,斯坦福大学的研究者们发表了名为《Generative Agents:Interactive Simulacra of
Human Behavior》的论文,展示了一个由生成代理(Generative Agents)组成的虚拟西部小镇。这是一个交互式的沙盒环境,在小镇上,生活着25个可以模拟人类行为的生成式AI Agent。它们会在公园里散步,在咖啡馆喝咖啡,和同事分享当天的新闻。甚至一个智能体想举办情人节派对,这些智能体在接下来的两天里,会自动传播派对邀请的消息,结识新朋友,互相约对方一起去派对,还会彼此协调时间,在正确的时间一起出现在派对上。这种Agent具有类似人的特质、独立决策和长期记忆等功能,它们更接近于“原生AI Agent”。在这种合作模式下,Agent不仅仅是为人类服务的工具,它们也能够在数字世界中与其他Agent建立社交关系。
记忆流是西部世界小镇中AI Agents的架构核心。小镇中的Agents包含三大重要的基本要素:记忆、反思和规划,相比前文提到的几个核心组件略有调整。这三大基本要素都基于一个核心:记忆流(MemoryStream),记忆流存储了Agent的所有经历记录,是一个包含了多个观察的列表,每个观察都包含了事件描述、创建时间以及最近一次访问的时间戳,观察可以是Agent自己的行为或从其他人那里感知到的行为。为了检索最重要的记忆以传递给语言模型,研究者确定了检索过程中需要考虑的三个因素:最近性、重要性和相关性。通过确定每条记忆基于这三个因素的分数,最后加总起来得到权重最高的记忆,作为prompt的一部分传递给大模型,以此来决定Agent的下一步动作。反思和规划都是基于记忆流中的观察来进行更新与创建的。
2)网易《逆水寒》手游,AINPC提高玩家体验
2023年6月30日,网易重磅MMO新游《逆水寒》手游上线,首日即登顶iOS游戏免费榜,截至7月3日凌晨,仍高居榜首;iOS游戏畅销榜排名于公测当天晚(6月30日晚)跃升至第3名,于7月1日晚跃升至第2名。
逆水寒手游中投放了百位AINPC,不仅能和玩家对答如流,而且拥有了记忆,大大增加了游戏乐趣,同时NPC提供的探索剧情,也让游戏内容更为丰富。通过与NPC互动,玩家可以了解这个世界,探听到很多奇闻,了解一些boss的弱点(比如通过NPC对话,了解到高衙内的打手怕水,在打斗中将其推进水中可以取得巧胜),甚至通过NPC的关系网,玩家可以巧解难题。
3)昆仑万维《ClubKoala》虚拟世界更可信
产品特色——AI NPC,让虚拟世界更真实。
使用Play for Fun的Atom AI系统,每个AI NPC都将有自己的性格特征、行为模式,会自主制定日程并执行,并会影响其他NPC的关系和发展。同时加入记忆系统后,AI NPC能够记住与玩家的互动,同时可以根据玩家的行为,并调整自己的行为,发展“自我意识”,进行自然而真实的动作和对话。玩家与AI NPC的互动将被NPC记住,同时NPC将分析玩家行为模式和偏好,并反映在后续与玩家的互动中,以建立起玩家与NPC之间真正的纽带。未来玩家甚至可以定制自己的专属NPC。
05
AI Agent应用领域
1、AI Agent有望多个领域实现落地应用
AI Agent是释放LLM潜能的关键,Agent和人的合作将越来越多。当前像GPT-4这样的大模型具备很强的能力,但是其性能的发挥却主要依赖于用户写的prompt是否足够合适。AI Agent则将用户从prompt工程中解放出来,仅需提供任务目标,以大模型作为核心的AI Agent就能够为大模型提供行动能力,去完成目标。得益于LLM能力边界的不断发展,AI Agent展现出了丰富的功能性,虽然目前Agent还只能完成一些比较简单的任务,但随着Agent研究的不断发展,Agent和人类的合作将越来越多,人类的合作网络也将升级为一个人类与AI Agent的自动化合作体系,人类社会的生产结构将会出现变革。
AI Agent有望多个领域实现落地应用,有的已经出现好用的demo产品。AI Agent已经在各个领域得到了初步的应用和发展,未来将有望成为AI应用层的基本架构,包括toC、toB产品等。
2、2B+垂类Agent认知正在形成,有望率先落地
2B和垂直领域仍是AI Agents容易率先落地的方向。由于Agent对环境反馈的依赖性较强,具备显著特点的企业环境是更加适合Agent建立起对某一个垂直领域认知的场景。传统的企业与AI结合应用更多的是在流程任务自动化,通过定义规则来提升一线员工的工作效率。而Agent则能够更进一步地提升一线员工的工作质量,通过将企业在私域业务上的知识与经验传授给Agent,让Agent能够成为该领域一个虚拟的“专家”智能体,去指导和帮助经验较为匮乏的一线员工,在让一线员工的工作质量大幅提升的同时,也能让一线员工快速成长起来。并且从时间上来看,一个经验丰富的高级员工是需要很长时间的培养的,而通过训练得到的垂类Agent是很容易实现低成本规模化复制的。理想状态下,企业能够实现给每一位一线员工都配备一位甚至多位垂类Agent来辅助工作,员工的单位生产力将会有大幅提升。大模型时代的到来加速了AI技术的平民化,能够认为,随着科技水平的不断发展,未来5-10年间AI智能的成本将会快速降低,企业为每一位员工搭配Agent的愿景将有望实现。
用户对Agent的认知正在形成,初创企业正在卡位。当前关于AI Agent的研究主要还是以学术界和开发者为主,商业化产品极少,Agent的未来产品形态如何仍未有定论。但是用户对于Agent的关注度正在提升,Agent对于效率提升的认知正在形成,可能未来几年间就会涌现出大量以Agent作为核心的产品应用到各行各业。
06
相关公司
大模型赋能让进一步智能化的AI Agent成为可能。具备底层大模型算法技术的公司以及相关的应用软件公司有望基于AI Agent实现应用的落地。
1、OpenAI:OpenAIGPTs展现AI Agent初级形态
GPTs+Assistants
API为用户提供自定义AI Agent的初级形态。用户可通过自然语言构建专属GPT,可接受用户专有知识,并通过API调用外部能力,使人人都有可能拥有自己的人工智能助理。
GPTs:人人都能拥有自定义GPT,简单工具降低开发门槛,GPT应用生态快速发展。11月7日,OpenAI于首届开发者大会上推出了自定义GPT功能,并命名为GPTs,可添加知识、操作和说明,并发布以供其他人使用。自定义的GPT发布后,用户可以选择私有、专属以及公开三种方式发布应用。企业版用户也可为特定客户、部门或专有数据集创建自己的ChatGPT。OpenAI还推出了GPT Builder,专门用于以自然语言交互的方式为用户创建自定义的GPT。GPT Builder大幅降低了开发门槛,从供给端打开GPT相关应用空间。根据GPTs Hunter,目前已有超3万个GPTs被平台收入,GPT应用生态快速发展中。
Assistants API:全面的API开发助手。OpenAI还面向开发者推出了全新的Assistants API,是OpenAI专门设计的用于帮助开发者在自己的程序中构建Agent的工具。Assistants API提供了“代码解释器(Code interpreter)”、“检索(Retrieval)”“函数调用(Function calling)”三项功能,其中:代码解释器允许开发者在沙盒中编写和运行Python代码,生成图形、图表并处理不同数据和格式的文件;检索使得开发者可以利用模型之外的知识来增强助手;函数调用可令助手能够调用开发者定义的函数,并将函数响应合并到其消息中。
GPT Store:OpenAI官方应用商店即将上线,GPT iPhone时刻来临。OpenAI未来还将正式推出官方GPT商店,主要用于分享用户构建的自定义GPTs,开发者可以将自己的GPTs提交,经过验证的GPTs将会商家GPT Store并供用户下载和使用,以此创造的收入将与OpenAI进行分成。GPT Store是在插件系统基础上实现的重磅升级,早在今年5月份OpenAI就在插件系统上开放了70多个插件,功能涵盖了创建网页、视频编辑、数据分析等。根据Sam Altman,ChatGPT自推出以来,已有超200万开发者使用API,超过92%的财富500强公司使用API,周活跃用户超1亿。
2、科大讯飞:讯飞构建星火助手生态
星火插件打造AI工具集市。讯飞星火插件将第三方生产力工具集成到讯飞星火SparkDesk和星火App中,插件可以帮助大模型即时更新信息,帮助大模型接入互联网,使大模型的数据集不再滞后。同时,插件也可以拓展模型的应用场景,使其能够适应更多的场景和需求。插件也可以为企业应用的私有化部署助力,确保内部信息的隐私性与安全性。现阶段,讯飞星火大模型现已接入8款插件,内含PPT生成、文档问答、简历生成、ProcessOn、智能翻译、内容运营、AI面试官、邮件生成多种应用,覆盖营销、工具、旅游、购物、教育、招聘等共18个主要应用场景。
星火助手生态拓展大模型可能。讯飞星火针对不同用户群体开发不同的AI助手,如面向科研人员的星火科研助手、面向学生群体的AI心理伙伴、面向软件行业的智能编程助手iFlyCode等。除助手功能外,用户还可将特定知识、历史对话等信息发给系统,以定制专属的AI人设“友伴”。截至目前,“讯飞星火”APP用户已开发出个性化AI助手3.7万多个,目前已上架的AI助手约5000个,用户也可以自行开发专属的AI助手。
3、昆仑万维:昆仑发布天工SkyAgents
昆仑万维于12月1日正式推出基于“天工大模型”的全新平台“天工SkyAgents”,帮助用户构建AI个人助理。该平台不仅具备自主学习和独立思考的能力,涵盖了从感知到决策,再到执行的全方位智能。用户得以通过自然语言构建属于自己的个人或多个“私人助理”,实现协同作业,灵活掌控不同部门和业务流程的信息整合与传递,为每个个体提供一位智能管理助手。此外,平台还将各项任务模块化,采用操作系统的模块方式,执行任务涵盖问题预设、指定回复、知识库创建与检索、意图识别、文本提取、HTTP请求等多个方面。
SkyAgents的使用无需编码,用户可以自主定义和配置AI Agents的行为,实现简单高效的搭建过程。昆仑万维通过可视化设计简化了开发流程,降低了技术门槛,使得所有开发者都能轻松创建自己的专属AI。
多种AI能力模块组件,SkyAgents覆盖多个应用场景,包括工作、编辑、金融、写作、助手、翻译、营销、生活等。除丰富的Agents库以外,用户还可以建立“我的Agents”列表。
4、拓尔思:“拓天大模型”发布,AIGC业务加速进展及落地
公司深耕NLP、知识图谱、OCR、图像视频结构化等多模态内容处理底层技术,建立完整多模态人工智能产品体系,为客户提供文本、音视频、多模态等全栈服务。AIGC业务实现营收782.18万元,同比增长206.02%,主要业务涵盖消保报告自动写作、媒体智能辅助写稿等应用。
公司目前正在研发拓天大模型Agent技术,重点研发Agent的任务规划、记忆、外部工具使用、多Agent协同等能力。“拓天大模型”的主要覆盖领域包括金融、媒体、政务;公司建立基于各行业的主题数据库,针对不同行业业务场景,提供大模型+产品,提供包括内容生成、多轮对话、语义理解、跨模态交互、知识型搜索、逻辑推理、安全合规、数学计算、编程能力和插件扩展在内的基础能力。拓天.M媒体行业目前拥有1000亿+互联网媒体资讯数据,100亿+官媒数据,200万+人民数据,14大类知识标引规范,12000+知识标引规则作为专业训练数据;并已与传播大脑签定战略合作协议,联合发布“传播大模型”;此外,公司已中标人民日报某项目,公司将在落地过程中与用户共创更多媒体AIGC应用。
5、彩讯股份:国产邮箱领军者,AI、信创铸就新机遇
国产邮箱领军者,持续拓展业务边界。公司成立初期主要从事基础互联网业务,2005年正式上线手机邮箱业务,2009年手机邮箱产品全面升级为中国移动"139邮箱"。随着互联网行业发展,公司将业务重心逐步集中到“产业互联网技术及服务提供商”,专注于帮助企业打造面向消费者的新型产品和渠道。公司目前拥有协同办公、智慧渠道、云和大数据三大产品线。
信创走向常态化,信创邮箱产品力强。随着行业信创的深入、应用软件的成熟,邮箱作为企业重要的协同办公软件之一,国产邮箱有望实现对国外邮件系统的替代。公司自主研发的邮箱产品Richmail是国内信创邮箱的主力产品,在信创适配能力与数据安全处于行业领先地位。彩讯电子邮件系统已入选中央集采邮箱项目,并获得诸多政企客户青睐。
大模型奇点时刻,AI邮箱助手有望开启全新成长曲线。2023年大模型迎来加速发展期,大模型技术将给多个行业带来重大模式创新和产业变革机遇,同时也有望演进成为每个人的人工智能助手,深刻地改变人类的生产和生活方式。邮箱是AIGC能落地的最优质场景之一,公司较早布局AI技术赋能,2023年5月发布了下一代智能邮箱demo产品具备类秘书的主动服务能力、基于大模型的信息整合处理能力及跨域信息获取和存储能力三大核心能力。目前AI邮箱助手产品提升日常邮件办公的效率可达20%以上。
深度受益运营商国资云,云业务增长势头强劲。国有企业作为国民经济的重要支柱,其数据安全关乎根基、关乎民生。推动国企上云成为国企数字化转型的下一步选择,“国资云”应运而生。据三大运营商财报显示,云计算成为拉动增长的主力,2022年云业务增速均超过100%。在运营商业务领域,公司深耕移动云,同时成功横向拓展涵盖至中国联通及中国电信。随着运营商业务的持续突破,公司市场份额有望进一步提高。
6、金山办公:AIGC+Copilot+Insight三箭齐发,AI全面赋能WPS八大应用
金山办公是国产办公软件及服务领军企业。产品涵盖WPS Office、金山文档等办公套件、面向组织级客户的数字办公全家桶WPS 365以及智能办公助手WPS AI等。作为具备全球竞争力的高度产品化公司,毛利率常年在80%以上,保持高强度研发投入且全部费用化。展望未来,WPS AI与WPS 365两大产品打磨叠加行业信创及办公软件数智化趋势,有望迎来新一轮黄金发展期。
金山办公今年推出WPS AI,实现AI+办公软件在国内率先落地。WPSAI三层次产品结构包括:1)借助AIGC协助用户生成更高质量的文章;2)Copilot使办公软件理解并响应用户的各种需求,实现自动操作;3)Insight提供个性化的知识库检索和信息生成。在应用端,WPSAI已全面赋能WPS八大应用,且智能文档、表格、文字、演示已开启公测。针对各个场景对WPSAI进行了体验测试:目前在轻文档及文字内部的文本生成功能已比较成熟;表格端可实现sumif、averageif等公式自动生成,帮助用户进行批量数据处理;PPT可实现一键更换模板、扩写正文等功能,提高工作效率。与传统版本相比,WPSAI整体能帮助用户实现一定程度的工作自动化和智能化,提高用户效率和产品体验。
WPS AI结合外部与自研模型,可提高模型效率。WPS AI底层模型采用混合部署策略,一方面使用外部大模型厂商的模型,目前已与百度文心一言、MiniMax、智谱AI、科大讯飞、阿里等厂商建立合作关系;另一方面公司基于开源底座自研小模型,目前已有7B和13B两个自研模型,自研模型和通用模型共同支持WPS AI功能,提高在特定场景的推理效率和性价比,且能够服务具备私有化部署需求的客户。
07
AI Agent可能面临的挑战
1、安全性与隐私性
安全性和隐私性是智能体的关键特性,对其稳定运行和对用户及社会的保护至关重要。这两个因素直接影响AI代理的信任度和控制力。若AI代理出现漏洞、遭受攻击或数据泄露等问题,则可能导致对用户或社会的损害。比如,OpenAI的GPTs在发布后不久,出现了安全漏洞,导致了用户上传的数据泄露。
2、伦理与责任
伦理和责任是智能体的核心原则,决定其价值观和目标,以及对用户和社会的尊重与保护。这些原则直接影响智能体的可信度和可控性。若智能体表现出不公平、不透明或不可靠等问题,可能引发用户或社会对技术的排斥。责任归属也是智能体的关键议题,人与智能体协同中的责任归属不清晰或不公正也会带来严重后果。
3、经济和社会就业影响
未来工作中的一个重要挑战是人类与智能体之间的竞争。例如,AI自由职业者平台NexusGPT的出现便是对传统自由职业者的冲击。未来的社会工作协同中,也会出现越来越多的智能体,雇主基于效率和效益考虑,可能会尽量减少人力投入。随着智能体技术的成熟,必须提前思考这些技术发展对社会和个人职业生涯的长期影响。
08
参考研报
1.招商证券-计算机行业AIGC系列报告(五):大模型多模态应用深化,AI Agent为应用普及提速
2. 东方证券-计算机行业深度报告:AI Agent,基于大模型的自主智能体,在探索AGI的道路上前进
3. 东吴证券-互联网传媒行业:AI时代新起点,寻新投资方向(三),AI Agent,大模型时代重要落地方向
4. 中信建投-人工智能行业:AI下半场,应用落地,赋能百业
5. 银河证券-拓尔思-300229-“拓天大模型”发布,MaaS服务未来需求广阔
6. 东吴证券-彩讯股份-300634-国产邮箱领军者,AI、信创铸就新机遇
7. 招商证券-金山办公-688111-C端改革筑基长远,AI赋能增量可期
8. 方正证券-南兴股份-002757-公司深度报告:联合微软打造AIGC智能助手,IDC及云业务亟待重估
免责声明:以上内容仅供学习交流,不构成投资建议。
出自:https://mp.weixin.qq.com/s/EYxbsC3zxa3eyl4OA-OvuA
Phraser 是一款人工智能驱动的工具,专为 Midjourney、Dall-E、Stable Diffusion、Disco Diffusion 和 Craiyon 等领先艺术生成器的快速创作而设计。