全球生成式 AI 应用全景图
发布时间:2024年06月06日
【摘要】
✓生成式 AI 应用按应用领域可以分为工具型应用、通用软件、行业软件、智能硬件四大类,从产品形态上将沿着AIGC(内容生成)、Copilot(智能助手)、Insight(知识洞察)、Agent(数字代理)四个重要的方向演进
✓生成式 AI 产品目前的商业模式主要包括功能订阅、按量付费、产品销售等,其中C 端应用以功能订阅和按量付费为主,商业化已经趋于成熟,而B 端应用则主要为功能订阅、解决方案和产品销售,即将进入全面商业化阶段。
大模型家族的不断丰富和技术演进路演
生成式AI 应用进入大爆发时代
1)驱动因素:大模型、算力与生态的共振
生成式人工智能是自个人PC 出现和互联网诞生以来最具颠覆性的技术创新,随着大模型以及ChatGPT 等一系列“杀手级”应用的诞生,生成式 AI 在文本、图像、代码、音频、视频和3D模型等领域展现出了强大的能力。当前生成式AI 的发展仍处于起步阶段,未来有望为全球经济创造数万亿美元的价值,并对各行各业的工作方式产生重大影响。在生成式AI 产业突变的背后是人工智能技术数十年的积累和酝酿,其演进历程具体可分为四个阶段:
1.专家系统:
2.机器学习与神经网络:
3.深度学习:
4.大模型:
人工智能产业发展浪潮
模型、算力、生态推动为AI 应用进入大爆发时代
GPT 模型的迭代过程
目前大模型的应用已经不局限于NLP 领域,包括图片、语音、视频、代码等多种模态的应用开始涌现,而大模型、生成算法与多模态等底层技术的突破成为了AIGC 的质变的关键。一方面,目前大模型可以广泛适用于各类下游任务,当前已经成为了AIGC 的底层框架。许多跨领域的AI 应用均是构建于大模型之上,能够解决多任务、多场景、多功能需求,支撑各种模态的生成;另一方面,包括生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion
Model)、神经辐射场(Nerf)等快速涌现的生成算法,以大模型为基础,能够创造出文字、图片、语音、视频、代码等各种模态的内容,而基于此之上的多模态应用开始涌现。
1.文本生成:目前技术最成熟的领域,随着新一代大模型的发布,未来将看到更高质量的输出、更长形式的内容和更好的垂直特性;
2.图像生成:过去一年技术进化速度最快的领域,2014年出现生成对抗网络GAN 是图片生成的主流算法,但一直存在对输出结果控制力弱,难以生成新图像等缺点。随后扩散模型、CLIP模型等技术的成熟,文生图的能力大幅增强,包括DALL-E2、Stable
Diffusion 等主流文生图应用均是基于扩散模型所构建;
3.视频生成:目前尚未有非常成熟的视频生成算法,许多应用还是依赖于图像生成的算法;
4.3D 模型生成:3D 模型生成还处于早期,其中这一领域关键算法神经辐射场(NeRF)于 2020 年于 ECCV 会议上提出,目前已经成为 3D 模型构建的主流算法,并广泛应用于游戏、数字人、虚拟现实、增强现实、电子商务等领域,未来具备广阔的应用空间;
5.代码生成:GPT-4 等大模型具备很强的代码能力,未来将会对软件开发人员生产力产生重大影响,同时能够使非专业开发人员更容易生成代码;
6.音频生成:音频合成在技术和商业化上已经非常成熟,近年来大模型和优化算法的成熟能够基于大量音乐数据集训练和优化算法来创建AI 虚拟歌手,更加趋近于真人发声效果,典型应用如:AI孙燕姿;
7.其他:从生物蛋白质分子模型到其他垂直领域,许多行业都在进行垂类模型的研发。
生成式AI 应用与多模态模型
在语言大模型和多模态多模态大模型快速取得质变的同时,视觉领域的基础大模型Vision
Transformer(VIT)在 2020 年诞生后,近三年语义分割、目标检测、图像分类、实例分割等主要视觉任务上的能力均有明显提升。Vision
Transformer(VIT)于 2020 年由 Google 提出,可以看成是Transformer 的图形版本,在尽可能少的改造下将标准的Transformer 模型直接迁移至图像领域变成Vision
Transformer 模型。Vision Transformer 最初用于处于图像分类任务,2020年很多后续的视觉模型都是基于VIT 建立。为了将Transformer 模型适用于图像,VIT将图像切分成很多子块并将这些子块组成线性嵌入序列,然后将这些线性嵌入序列作为Transformer 的输入以模拟在NLP 领域中词组序列输入。
当前视觉大模型相当于20 年前后的语言大模型:
1.Transformer 于2017 年由Google 提出,Vision
Transformer 于2020 年提出;
2.当前最大的语言模型已经超过万亿参数量级,当前最大的视觉模型刚刚达到百亿参数量级;
3.从GPT-2(2019)开始,语言模型开始具备通用能力,而当前视觉模型基本仍只能处理特定视觉任务。
当前视觉大模型相当于20 年前后的语言大模型
AI 组件层(AI
Stack)是 AI 生态的重要组成部分,为模型训练、数据整合、应用开发、应用部署等提供支撑,AI组件层的完善和产业分工细化,代表AI 生态的逐渐成熟。AI组件层具体包括了模型训练、数据整合、应用开发、应用部署等几个关键环节,各环节均已经初步跑出了一系列组件工具,可预见随着各个头部工具厂商不断拓展自身的产品线,AI组件层的一体化和平台化程度会越来越高。除了新兴厂商之外,IBM、埃森哲、德勤等 IT 咨询公司也推出了 AI 解决方案,来支撑 AI 应用的开发与部署,具体来看:
1.应用框架:通过提供了一套组件和接口,将开源模型、API和数据库等不同的外部组件链接在一起,能够帮助应用开发快速构建基于大模型的AI 应用,来简化应用的开发和创建过程,代表厂商包括LangChain,Dust.tt,Fixie.ai,GPT
Index和 Cognosis。
2.数据整合:由于基础模型仅限于对训练它们所依据的事实进行推理,而应用和垂类模型需要使用时效性强以及垂直领域和私有数据来推出面向专业领域的应用,特别是在金融、医疗等专业性强以及天气、体育、新闻等实效性强的领域,应用程序开发人员需要模型调用外部数据源,通过外挂等方式来实现数据整合,而非再次训练底层大模型。涉及工具包括了向量数据库Pinecore、Chroma 、 Redis 等、上下文窗口 LangChain 、LlamaIndex 等、数据加载器Unstructured.io 、Databricks等。
3.模型训练:应用开发对底层模型有多种选择,可以选择由Open
AI、Anthropic或 Cohere等供应商创建的闭源模型,或者使用开源模型,以及可以选择训练自己的模型,而且模型尺寸、模态、输出质量、上下文窗口大小、成本和延迟各不相同,最佳设计通常需要开发人员在使用多个模型的组合。涉及到的AI 组件包括:模型库Hugging
Face、Replicate等、深度学习框架TensorFlow、PyTorch、DeepSpeed等、训练工具 Mosaic、TOgether、Cerebras 等,托管服务 OctoML、Vertex
AI等。
4.评估工具:一方面,在模型训练过程中,开发人员需要使用多种工具来实现模型的快速开发和迭代,基于数据来驱动提示工程、超参数、微调、模型相关的实验,相关工具包括Statsig、Comet、Mlflow 等;另一方面,在应用部署后,应用厂商需要跟踪底层大模型的性能、成本、延迟和行为随时间的变化,了解模型输出的质量,防止恶意使用以及控制大模型的成本,相关工具包括WhyLabs、datadog等。
5.应用部署:将AI 应用部署到实际应用环境中,可以采用Fixie 、Gradio等框架,或者采取第三方厂商的服务来完成应用的部署实施。
AI 产业生态的逐渐成熟
2)产业现状:一二级视角看AI 应用的演进
随着GPT 以及扩散模型等底层模型和算力能力的突破,生成式AI 应用在近 3 年来取得了跨越式的发展。当前时点,B端应用场景逐渐成熟,AI应用即将进入全面商业化阶段。
生成式AI 应用的发展阶段
3)应用框架:应用的四大赛道与产业逻辑
生成式AI 应用按应用领域可以分为:通过工具,通用软件、行业软件、智能硬件四大类。具体来看:
1.工具型应用:包括聊天机器人、搜索引擎、文本工具、AI作画以及代码工具等,应用领域主要集中在C 端,产品的同质化程度较高,对底层模型的能力存在高度依赖,目前C 端应用正进入第一轮洗牌阶段;
2.通用软件:主要包括办公软件、企业服务、IT运维、软件开发、网络安全、数据智能等领域,各个赛道上均已出现标杆产品,大多数是智能助理(Coplilot)的形态,预计将在四季度进入商业化落地的关键阶段;
3.行业软件:涉及金融、医疗、教育、工业、游戏、法律等多个行业,行业间差异化程度较大,2B场景下产品目前成熟度仍低于通用软件,金融、医疗等头部厂商开始打造垂类大模型,未来对行业数据价值的充分挖掘是竞争的关键;
4.智能硬件:汽车、机器人、智能终端等,无论智能驾驶还是机器人均具备巨大的市场空间,当前的瓶颈在于感知层与决策层,需要计算机视觉等底层技术的进一步突破。
生成式AI 应用产业地图
生成式AI /大模型拥有三大底层元能力:感知、分析和生成:
1.感知:对文字内容的感知、对人类输入的需求理解能力,未来进化方向是从文字内容的感知到图像视觉的感知;
2.分析:对信息和知识的检索、归纳与整合能力,未来进化方向是推理和决策。
3.生成:文本生成能力较为成熟,未来进化方向为图片、视频、3D等多模态生成能力的进一步提升。
基于三大底层元能力,未来的AI 应将沿着AIGC(内容生成)、Copilot(智能助手)、Insight(知识洞察)、Agent(数字代理)四个重要的方向演进:
1.AIGC(内容生成):生成式 AI 的最主要变革是它能够生成创造新的内容,包括文本、图像、视频、代码、3D模型等,AIGC 应用发展将取决于大模型及多模态技术的进一步的提升;
2.Insight(知识洞察):基于大模型实现对数据、信息、知识的分析与整合,为用户提供洞察并辅助决策,主要应用于金融、医疗、军事等领域的分析、研究和决策工具。
3.Copilot(智能助手):将 AI 的能力深入嵌入具体应用场景中,作为应用的AI 助手,能够主动理解使用者的意图并提供成型的方案,Copilot是生成式 AI 应用最广泛的产品形态;
4.Agent(数字代理):AI 智能体,相较于 Copilot,Agent 能够自动感知环境,通过自己的独立决策和行动来改变环境,并通过不断学习和自适应来提高性能,主要应用包括自动驾驶、机器人等。
AI 应用的基础能力与演进方向
AI 细分应用的标杆产品与发展路径
通用软件市场应用进展
行业应用:C端场景成熟,B 端处于起步阶段
出自:https://mp.weixin.qq.com/s/4CUEfwv0bynRxSynjLeEPw
怪兽AI数字人为怪兽智能科技推出的产品,包含全息交互数字人、3D超写实交互数字人,AIGC生产、SaaS短视频创作管理和直播服务平台。