Phenaki简介
Phenaki 是什么?
Phenaki 是 Google Research 的一个项目,其目标是从开放域的文本描述中合成逼真的视频。可以直接从文本中生成长达数分钟的视频。
通过Phenaki,您还可以从静止图像和提示生成视频。所提出的视频编码器-解码器在时空质量和每个视频的令牌数量方面优于文献中当前使用的所有每帧基线。
为了从文本生成视频标记,Phenaki使用以预先计算的文本标记为条件的双向掩码转换器。生成的视频令牌随后被去令牌化以创建实际视频。
Phenaki 是视频合成领域的一个突破,因为它可以处理开放域和时间变量提示,这与以前受数据可用性和计算成本限制的方法不同。Phenaki 还可以从静止图像和提示生成视频,例如放大猫的眼睛或让它打哈欠。Phenaki 有许多潜在的应用,例如娱乐、教育、讲故事和艺术。
Phenaki能做什么?
Phenaki 优点:
它可以生成可变长度和质量的视频,最长可达两分钟
它可以处理开放域和时间变量提示,例如故事或描述
它利用大量的图像-文本对语料库和少量的视频-文本示例来泛化视频数据集之外
如果你想要更深入地了解关于智能资讯的内容,可以查看 智汇宝库,这是一个提供智能科技领域最新资讯的网站。
在这个过程中,你可以探索各种智能技术的发展动态,了解智能科技领域的最新进展和趋势。
Chat Video 基于AI的高效视频学习工具,具有语音识别、摘要总结、AI 问答等功能。