首页 > Ai资讯 > Ai知识库 > Sora懂不懂物理世界？

Sora懂不懂物理世界？

发布时间：2024年06月06日

我们真实的视频是会体现真实世界的物理规律，以航行为例这意味着 AI 需要考虑到重力、浮力、碰撞以及船体结构在动态环境中的行为。那么问题来了，Sora到底懂不懂物理世界呢？

丘成桐先生的弟子, 计算机图形学专家顾险峰从数学角度给出了很精到的分析：https://mp.weixin.qq.com/s/IUN1Y6TDATtFOK9r8m8iUQ

顾险峰老师在文中列举了Sora生成视频的物理问题，并总结如下：

首先，用概率统计的相关性无法精确表达物理定律的因果性，自然语言的上下文相关无法达到偏微分方程的精密程度；
其次，Sora无法判断全局的合理性。虽然Transformer可以学习临近时空令牌间的连接概率，但是整体的合理性需要更高层次的数学理论观点、或者更为隐蔽而深厚的自然科学和人文科学的背景，目前的Transformer无法真正悟出这些全局观点；
另外，Sora忽略了物理过程中最为关键的临界态。一方面因为临界态样本的稀缺，另一方面因为扩散模型将稳恒态数据流形的边界模糊化，消弭了临界态的存在，生成的视频出现了不同稳恒态之间的跳跃。

Sora的基本原理

Sora的训练集为短视频集，每个样本是一个短视频，Sora将其编码到数据空间进行降维，然后在隐空间中将特征向量切割成补丁，加上时间顺序，构成时空补丁，亦即时空令牌（time-space token）；每个令牌在短视频的帧序列号（时间），在当前帧的行列序号（空间）都被记录在令牌里。

Sora 将视频编码映射到隐空间，再切割成时空补丁，被称为时空令牌（time-space token）

进一步地，Sora在数据空间将数据令牌的概率分布通过扩散过程传输变换成高斯分布，再通过传输变换的逆变换将隐空间中的白噪声令牌变成隐数据令牌。对于有些标题过于简短，字幕缺少的视频，Sora采用了Dall-E的重新标题技术。

Sora用扩散模型从白噪声时空令牌生成数据时空令牌

然而，Sora在如下方面存在着不足：

Sora可以合理拼接相邻令牌，但整体视频可能出现悖谬，缺乏全局的合理性：观察下面的“幽灵椅子”视频：如果我们将视野限制在屏幕中间的一个局部区域，则视频非常合理。仔细检测不同令牌区间直接的连接，也非常连续光滑。但是整个椅子如鬼魅般悬空，这与日常经验相悖。

这种“局部合理，整体荒谬”的生成视频，意味着Transformer学会了Token间局部的连接概率，但是缺乏时空上下文的大范围整体观念。在这个视频中，整体观念来自于物理中的重力场，虽然局部看不出来，但是整体上无时不在。

目前的Transformer虽然可以学习局部的上下文，但无法学习更加全局的上下文，这里的全局可能是物理中的重力场，也可以是人体工程学，或者生物中的物种分类。这种全局观点，恰是朱松纯教授提出的AI世界中的暗物质思想。

虽然每个训练样本视频都隐含地表达了全局的观念，但是令牌化的过程却割裂了全局的观念，有限地保留了临近令牌间的连接概率，从而导致局部合理，整体荒谬的结果。

比如，Soar生成的“南辕北辙跑步机”视频，如果我们观察每一个局部区域，看到的视频都是合理的，视频令牌间的连接也是自然的，但是整体视频却是荒谬的，跑步机与跑步者的方向相反。这个视频的全局观与来自于人体工程学的事实相悖。

再如Sora生成的“四足蚂蚁”的视频，蚂蚁的动作栩栩如生，宛如行云流水；但是地球的自然界并没有四足蚂蚁。局部的合理无法保证整体的合理，这里的全局观念来自于生物学事实：

尽管临界事件在物理系统中出现的概率几乎为零，但是却极端重要；Sora倾向于生成平滑的变化过程，忽略了物理过程中关键的临界和相变现象，如杯子的倾倒。

下图中的小狗一会变成三个，一会变成四个；Sora的扩散模型没有识别出数据的边界，而是冲破边界，在3只小狗图片的流形和4只小狗图片的流形间跨越。

正确的做法应该是先识别数据边界，然后在物理无法跨越的情形下（如3只变成4只），在边界处返折回原来的模型。

Sora生成的物理视频直接冲破了数据空间的边界，而没有在边界处折返。

作者：王俊凯
链接：https://www.zhihu.com/question/645000449/answer/3405114418