Zero123简介
今天,我们发布了稳定版 Zero123,这是我们内部训练的模型,用于生成视图条件图像。与之前最先进的 Zero123-XL 相比,稳定的 Zero123 产生了显着改善的结果。这是通过 3 项关键创新实现的:
1、改进的训练数据集,从 Objaverse 中大量过滤,只保留高质量的 3D 对象,我们渲染的对象比以前的方法更加真实。
2、在训练和推理过程中,我们为模型提供了估计的摄像机角度。这种海拔调节使其能够做出更明智、更高质量的预测。
3、预先计算的数据集(预先计算的潜在变量)和改进的数据加载器支持更高的批量大小,与第一个创新相结合,与 Zero123-XL 相比,训练效率提高了 40 倍。
Zero123特征:
稳定的 Zero123 可以生成物体的新颖视图,展示从各个角度对物体外观的 3D 理解,由于训练数据集和高程条件的改进,其质量比 Zero1-to-3 或 Zero123-XL 显着提高。
该模型基于稳定扩散 1.5,消耗与 SD1.5 相同数量的 VRAM 来生成 1 个新视图。使用 Stable Zero123 生成 3D 对象需要更多时间和内存(建议使用 24GB VRAM)。
为了实现 3D 对象生成方面的开放研究,我们改进了 Threestudio 开源代码的开源代码,以支持 Zero123 和 Stable Zero123。 Stable 3D 流程的简化版本目前处于私人预览阶段。从技术角度来说,这使用分数蒸馏采样 (SDS) 来使用稳定的 Zero123 模型来优化 NeRF,稍后我们可以从中创建纹理 3D 网格。该过程可以适用于文本到 3D 生成,首先使用 SDXL 生成单个图像,然后使用 Stable Zero123 生成 3D 对象。
Zero123项目:https://github.com/cvlab-columbia/zero123
Zero123试用:https://huggingface.co/spaces/cvlab/zero123-live
Zero123论文:https://arxiv.org/abs/2303.11328
该模型现已发布在 Hugging Face 上,研究人员和非商业用户可以下载并进行实验。
如果你想要更深入地了解关于智能资讯的内容,可以查看 智汇宝库,这是一个提供智能科技领域最新资讯的网站。
在这个过程中,你可以探索各种智能技术的发展动态,了解智能科技领域的最新进展和趋势。
一个声音克隆和文本到语音转换的开源 Python RAG框架,只需1分钟语音即可训练一个自己的TTS模型。