Linly-Dubbing:一个开源的多语言AI配音和视频翻译工具
可以将视频自动翻译成其他语言并生成字幕,还能克隆视频中说话者的声音并自动配音,以及进行口型匹配。
主要功能
- 自动下载视频:支持从YouTube等网站下载视频
- 多语言支持: 支持中文及多种其他语言的配音和字幕翻译。
- AI语音识别: 精准的语音识能力,语音到文本转换和说话者识别。
- LLM 翻译: 结合领先的大语言模型(如GPT),快速且准确地进行翻译,确保翻译的专业性和自然性。
- 声音克隆: 通过声音克隆技术,生成与原视频配音高度相似的语音,保持情感和语调的一致性。
- 口型同步: 通保持口型同步,使配音与视频画面高度契合,提升视频的真实性和互动性。
- 灵活上传与翻译:用户可以上传视频,自主选择翻译语言和标准,确保个性化和灵活性。
技术细节
- 语音识别
- WhisperX: 基于 OpenAI Whisper 语音识别系统的扩展,能够将语音内容转录为文字,并与视频帧精确对齐,生成带有时间戳的字幕文件,支持多说话者识别。
- FunASR: 一个综合性的语音识别工具包,提供语音识别、语音活动检测、标点符号恢复等功能,特别针对中文语音进行了优化。
- 语音合成: 集成了Edge TTS、XTTS和CosyVoice等多个先进的语音合成工具。
- Edge TTS: 微软提供的高质量文本到语音转换服务,支持多种语言和声音样式,生成自然流畅的语音输出。
- XTTS: Coqui 提供的先进深度学习文本到语音工具包,专注于声音克隆和多语言语音合成,通过短时间的音频片段实现声音克隆,生成逼真的语音输出。
- CosyVoice: 阿里通义实验室开发的多语言语音理解和合成模型,支持多种语言的高质量语音合成和跨语言音色克隆。
- 字幕翻译: 使用OpenAI API和Qwen模型进行多语言字幕翻译。
- OpenAI API: 使用 OpenAI 的 GPT-4 和 GPT-3.5-turbo 进行高质量的字幕翻译,这些模型以其自然语言理解能力和生成文本能力著称,适用于对话生成和文本分析。
- Qwen: 一个开源的本地化大型语言模型,支持多语言翻译,能够处理多种语言的文本,经济高效。
- Google Translate: 集成 Google Translate 作为翻译功能的补充,提供广泛的语言支持和良好的翻译质量。
- 声音分离: 使用Demucs和UVR5技术实现人声与伴奏的分离。
- |Demucs: 由 Facebook 研究团队开发的声音分离模型,能够将混合音频中的不同声音源分离开来,包括乐器、声音和背景音,广泛用于音乐制作和影视后期。
- UVR5 (Ultimate Vocal Remover): 高效的人声伴奏分离工具,能够提取接近原版立体声的伴奏,表现优于其他同类工具如 RX9、RipX 和 SpectraLayers 9。
- 口型同步
- 借鉴 Linly-Talker,专注于数字人对口型技术,结合计算机视觉和语音识别技术,使虚拟角色的口型与配音精确匹配,实现高度自然的同步效果。这项技术适用于动画角色、虚拟主播、教育视频中的讲解员等多种场景。
- 视频处理
- Linly-Dubbing 提供了添加字幕、插入背景音乐、调整音量和播放速度等功能,用户可以自定义视频内容,使其更具吸引力和个性化。
- 集成yt-dlp: yt-dlp是一款强大的开源命令行工具,专为从 YouTube 和其他网站下载视频和音频而设计。该工具具有广泛的参数选项,允许用户根据需求精细地定制下载行为。无论是选择特定的格式、分辨率,还是提取音频,yt-dlp 都能提供灵活的解决方案。
演示视频
原始视频
一款辅助写作的AIGC产品