首页 > Ai资讯 > Ai日报 > PROTEUS:斯坦福大学开发的 通过单张图片让人物进行实时唱歌和说话的AI

PROTEUS:斯坦福大学开发的 通过单张图片让人物进行实时唱歌和说话的AI

发布时间:2024年06月15日

PROTEUS是斯坦福大学的研究人员和Apparate Labs推出的一款用于生成逼真、具有表现力的人类形象的AI模型,能够从单一图像生成各种效果。

PROTEUS能够根据单张照片和语音生成高度逼真和具有表现力的虚拟人物,这些人物可以在实时视频中展现复杂的面部表情和身体动作。也就是它能够实时接受语音输入生成视频流,使用户能够通过语音控制与虚拟人物互动。

Proteus基于一种新颖的实时多模态基础模型,能够以每秒100帧以上的速度生成视频。Apparate由斯坦福大学的博士和教授创立,团队发表了多项在神经渲染、生成式AI和具身AI领域的开创性工作。他们希望安全地提供这项技术,并向选定的开发者提供API的早期访问权限。

  • 实时生成逼真人物
    • Proteus 可以从单一图像生成笑、说唱、唱歌、眨眼、微笑、说话等效果。能够生成高度逼真和具有表现力的虚拟人物
    • PROTEUS的创新设计使其能够实现实时处理,支持100+ FPS的视频流。这意味着PROTEUS可以在几乎没有延迟的情况下生成和显示人物形象,确保互动的流畅性和自然性。
  • 多模态交互
    • PROTEUS兼容多模态输入,可以处理语音、文本和图像等多种形式的数据。这使得PROTEUS能够在各种应用场景中进行自然和直观的交互,如通过语音指令生成和控制虚拟人物。
  • 自定义和应用
    • PROTEUS的架构设计使其高度可定制,适用于多个领域和应用场景。用户可以根据具体需求调整PROTEUS生成的虚拟人物的外观、动作和表现,从而满足个性化需求。

模型架构

PROTEUS采用了先进的潜在扩散模型和Transformer架构:Latent diffusion model with state-of-the-art Transformer

  • PROTEUS使用了潜在扩散模型,这种模型通过在潜在空间中进行数据处理,可以高效地生成复杂图像。同时,它还使用了先进的Transformer架构,增强了模型的性能和生成效果。
  • 通过进一步改进的架构和算法,可以实现每秒超过100帧的生成速度,确保视频流的流畅和逼真。
  • PROTEUS的愿景是提供一个可通过语音控制的视觉化体现,作为人工对话实体的直观接口。通过语音控制,生成一个直观的、具有视觉表现的虚拟形象,使用户能够与之进行自然的对话和互动。
  • PROTEUS可以与多种大语言模型一起使用,这些模型可以处理语音、文本、图像等多种输入形式。同时,PROTEUS可以根据不同的应用场景进行定制,以满足各种需求。

通过API可以在任何应用中调用使用该服务

下面是在 Twitch 直播调用的案例

霍格沃茨的肖像:https://t.co/KZ7Anjgh9m

图片

从前有一个好莱坞故事:https://t.co/MUThmL3lZ5

图片

当最伟大的科学家们相遇:https://t.co/Y8YBYaX0vM

图片

直接向标志性历史人物学习历史:https://t.co/zfVpLWEOvw

图片

最强大的读书俱乐部:https://t.co/bp369TFhsi

图片

哲学家圆桌会议:https://t.co/R0d51BDFXz

图片

Twitch 直播的完整列表可以在这里找到: apparate.ai/stream.html

获取早期访问权限:https://apparate.ai/early-access.html

应用场景

PROTEUS的高度逼真和具有表现力的实时生成能力使其在多个领域有广泛的应用潜力。以下是一些主要的应用场景:

  1. 个性化虚拟助理
    • PROTEUS可以生成可视化的虚拟助理,帮助用户处理日常事务、管理日程、提供信息查询等。虚拟助理不仅可以通过语音进行互动,还可以通过逼真的表情和动作提供更加自然和直观的交流体验。
  2. 虚拟宠物
    • 用户可以使用PROTEUS创建自己的虚拟宠物,这些宠物不仅具有逼真的外观,还可以表现出丰富的情感和行为,提供陪伴和娱乐。
  3. 情感支持
    • PROTEUS可以生成情感支持型虚拟人物,为用户提供心理安慰和支持。这些虚拟人物可以根据用户的情绪和需求进行适当的反应,帮助用户缓解压力和孤独感。
  4. 客户服务
    • PROTEUS可以用于客户服务行业,生成虚拟客服代表,提供即时和高效的客户支持。这些虚拟客服可以处理常见问题,减少客户等待时间,提高客户满意度。
  5. 教育和培训
    • PROTEUS可以生成虚拟教师或培训师,进行个性化的教育和培训。用户可以通过与虚拟教师互动,获得量身定制的学习体验,例如根据用户水平讲授量子物理等复杂知识。
  6. 视频游戏角色定制
    • 游戏开发者可以使用PROTEUS生成高度可定制的游戏角色,玩家可以根据自己的喜好调整角色的外观、动作和表现,使游戏体验更加个性化和沉浸。
  7. 影视和娱乐
    • PROTEUS可以在影视和娱乐行业用于生成逼真的虚拟演员和角色,降低制作成本并提高制作效率。这些虚拟角色可以与真实演员互动,增强影视作品的表现力和视觉效果。
  8. 市场营销和广告
    • PROTEUS可以用于市场营销和广告,生成具有吸引力的虚拟代言人,进行产品推广和品牌宣传。这些虚拟代言人可以通过逼真的表现吸引消费者的注意力,增强品牌形象。
  9. 社交媒体和虚拟社交
    • PROTEUS可以在社交媒体和虚拟社交平台上生成虚拟形象,用户可以通过这些虚拟形象进行互动和交流,丰富社交体验。

一些案例

如果你想要了解关于智能工具类的内容,可以查看 智汇宝库,这是一个提供智能工具的网站。
在这你可以找到各种智能工具的相关信息,了解智能工具的用法以及最新动态。