首页 > Ai资讯 > Ai日报 > 快手发布“可灵”视频大模型类似Sora技术路线能生成超过120秒 1080P视频

快手发布“可灵”视频大模型类似Sora技术路线能生成超过120秒 1080P视频

发布时间：2024年06月07日

32539

快手最新发布的国产视频生成大模型“可灵”大模型，采用了类似Sora的技术路线，并结合了多项自研技术创新，能够生成时长超过120秒、分辨率高达1080p的视频，且能够精准建模复杂运动和物理特性。

主要功能特点

1. 高质量视频生成

时长和帧率：可灵支持生成时长长达2分钟、30fps的超长视频。
分辨率：生成视频的分辨率高达1080p，画质清晰细腻。
宽高比：支持多种宽高比的视频生成，包括竖版视频，适配不同的使用场景和平台。

2. 物理世界模拟

真实物理特性：可灵大模型能够模拟真实世界的物理特性，例如重力、光影反射、液体流动等。
细节刻画：对于物体的运动、表面反射、影子变化等细节刻画非常到位，提供真实的视觉体验。

3. 复杂运动刻画

精准运动建模：能够准确建模复杂且大幅度的运动场景，例如高速奔跑的动物、在月球上行走的宇航员等。
连贯性：生成的视频画面连贯，动作流畅，能够真实再现运动过程中的细微变化。

4. 多种控制信息输入

控制信息输入：支持用户输入相机运镜、帧率、边缘/关键点/深度等控制信息，提供丰富的内容控制能力。
文本提示词优化：设计了专用的语言模型，可以对用户输入的提示词进行高质量扩充及优化，提升生成效果。

技术实现

1. 模型设计

类Sora架构：采用了类Sora的DiT结构，用Transformer代替传统扩散模型中的卷积网络，提升生成能力和扩展性。
3D VAE网络：自研3D VAE网络，实现时空同步压缩，提升视频重建质量。
全注意力机制：设计了3D Attention机制进行时空建模，能够准确建模复杂时空运动，同时兼顾计算效率。

2. 数据保障

标签体系：构建了完备的标签体系，对训练数据进行精细化筛选和调整，确保视频数据的高质量。
视频描述模型：研发了视频描述模型，生成精确、详尽、结构化的视频描述，提高文本指令响应能力。

3. 计算效率

分布式训练集群：使用分布式训练集群，通过算子优化、重算策略优化等手段，大幅提升硬件利用率。
分阶段训练策略：采取分阶段训练策略，先在低分辨率阶段通过大量数据增强模型能力，再在高分辨率阶段提升细节表现。

一些案例

大幅度的合理运动

视频播放器

00:00

00:00

00:00

使用上/下箭头键来增高或降低音量。
长达2分钟的视频生成
模拟物理世界特性
强大的概念组合能力
电影级的画面生成
支持自由的输出视频宽高比
表情身体驱动：

基于自研的3D人脸和人体重建技术，结合背景稳定性和重定向模块，实现表情肢体全驱动技术，仅需一张全身照片，即可体验生动的“唱跳”玩法
.

官网：https://kling.kuaishou.com/

如果你想要了解关于智能工具类的内容，可以查看智汇宝库，这是一个提供智能工具的网站。
在这你可以找到各种智能工具的相关信息，了解智能工具的用法以及最新动态。

ChatGPT 开启越狱模式！不可思议，GPT-4o都能撩妹了…..阿里云发布Qwen 2开源模型性能超越目前所有开源模型和国内闭源模型

最新工具