苹果发布一种新的图像和视频生成方法：“套娃扩散模型” 可同时处理不同分辨率的图像

苹果发布了Matryoshka Diffusion Models (MDM)，一种新的图像和视频生成方法，可以理解为“套娃扩散模型”。它的名字来源于俄罗斯套娃，因为它像套娃一样，把小的结构嵌套在大的结构里。

当前，用于生成高质量图像和视频的模型面临很大的计算和优化难题。大多数方法要么在图像的像素层面上逐步生成，要么通过先训练一个压缩图像的模型，再在低分辨率的图像上进行处理。

MDM 的创新在于它能同时处理不同分辨率的图像。就像你在画一幅画，先画小的细节，然后再画大的背景，MDM 就是这样同时处理不同层次的内容。

此外，它的训练过程是从低分辨率到高分辨率逐步进行的，这让生成高分辨率图像和视频变得更加高效。

研究表明，这种方法可以生成分辨率高达 1024×1024 像素的图像，并且即使使用相对较少的数据，它也能很好地生成出符合要求的图像。

生成高分辨率图像和视频的难题：
- 计算太复杂：当生成非常清晰的图片或视频时，计算机需要做很多复杂的运算，这非常耗费时间和资源。传统的方法通常需要分步骤生成图像，这使得整个过程变得很慢且容易出错。
- 训练过程太麻烦：以往的方法需要分开训练不同部分的模型，这就像你需要先学会画简单的草图，然后再学复杂的细节，最后拼在一起。这种方法不仅费时，还很容易出错。
平衡生成质量和速度的矛盾：
- 清晰度与生成速度的冲突：让图像既清晰又快速生成是一个难题。传统的方法通常会牺牲生成的速度来换取更好的清晰度，或者需要更多的计算资源来达到两者的平衡。