视频大模型训练相关词条解释
发布时间:2024年06月06日
什么是Sora?
Sora是OpenAI公司发布的一款AI视频生成模型。它不仅能够根据文字指令创造出既逼真又充满想象力的场景,而且能生成长达1分钟的超长视频,不管是一镜到底还是分镜头切换模式,都能够保持角色及背景神一般的一致性和稳定性。这标志着我们如何理解和创造虚拟世界的方式即将迎来根本性的变革。
借助于对语言的深刻理解,Sora能够准确地理解用户指令中所表达的需求,把握这些元素在现实世界中的表现形式。也因此,Sora创造出的角色,能够表达丰富的情感!它所制作出的复杂场景,不仅可以包括多个角色,还有特定的动作类型,以及对对象和背景的精确细节描绘。Sora生成视频中人物的瞳孔、睫毛、皮肤纹理,都逼真到看不出一丝破绽,完全没有AI味儿。从此,视频和现实究竟还有什么差别?!
OpenAI在22年发布的ChatGPT改变了语言人工智能格局,24年发布的Sora目测也在改变着视频人工智能格局。
想象一下,如果我们能够通过简单的描述就创造出动态的、互动的三维世界,那么教育、娱乐乃至科学研究将迎来怎样的变革?这项技术背后的原理是什么,又将如何影响我们的未来?
Sora采用Diffusion
Transformer (DiT)架构进行训练。概括来说就是用视觉块编码(visual patch)的方式,把不同格式的视频统一编码成了用transformer架构能够训练的embeding,然后引入类似diffusion的方式在降维和升维的过程中做加噪和去噪,然后把模型做得足够大,大到能够出现涌现能力。
通过大规模参数量的训练,视频模型涌现出许多有趣的新能力。这些能力使得Sora能够模拟现实世界中人类、动物和环境的某些方面。简单来说,在别家做视频模型的时候还是基于“小”模型的思路(基于上一帧预测下一帧,并且用文字或者笔刷遮罩做约束)的时候,OpenAI则是用做“大”模型的思路做视频生成——准备足够大量的视频,用多模态模型给视频做标注,把不同格式的视频编码成统一的视觉块嵌入,然后用足够大的网络架构+足够大的训练批次(batch size)+ 足够强的算力,让模型对足够多的训练集做全局拟合(理解),在模型更好地还原细节的同时让模型出现智能涌现能力——例如在一定程度上理解真实世界的物理影响和因果关系。
我把跟Sora以及文生视频模型训练相关的词条放到附件中,相信大家看过这些词条之后,会对Sora的原理有更加清晰的理解。
Genmo是一个创造和分享交互式、沉浸式生成艺术的平台。通过创建视频、3D场景、动画、矢量设计资产等,超越Genmo上的2D图像。