基于 OpenAI Whisper 模型的实时语音转文字工具
发布时间:2024年06月06日
今天给大家分享一款专注于音频处理和创作的开源软件【WhisperLive】
什么是WhisperLive?
· WhisperLive 是一款专注于音频处理和创作的开源软件,使用 OpenAI Whisper 模型将语音输入转换为文本输出,可以用于转录麦克风的实时音频输入和预先录制的音频文件,为艺术家和音乐制作人提供了一个强大的平台,用于实时音频处理、效果制作和声音合成。
· WhisperLive 具有跨平台支持的优点,可以在不同的操作系统上运行,包括 Windows、macOS 和 Linux。还提供直观的图形界面,可以通过拖放界面元素来设置和控制音频处理效果和合成器。
WhisperLive 的主要特点包括:
1. 实时音频处理:WhisperLive 支持实时音频处理,可以在音频流上应用各种效果和合成算法,实现声音的实时变换和创作。
2. 高度可定制性:WhisperLive 允许通过编写插件和脚本语言来自定义其功能和界面,以适应不同的音乐制作和声音设计需求。
3. 跨平台支持:WhisperLive 支持多种操作系统,包括 Windows、macOS 和 Linux,可以在不同的平台上使用。
4. 直观的界面:WhisperLive 提供了直观的图形界面,可以通过拖放界面元素来设置和控制音频处理效果和合成器。
5. 开源和社区支持:WhisperLive 是开源的,这意味着可以免费使用和修改其源代码。此外,WhisperLive 的社区非常活跃,可以在社区中寻求帮助、分享经验和插件。
安装使用
· 安装PyAudio 和 ffmpeg
·
bash setup.sh
· 从pip 安装 WhisperLive
·
pip install whisper-live
· 运行服务
·
from whisper_live.server
import TranscriptionServerserver = TranscriptionServer()
server.run("0.0.0.0", 9090)
·
转录音频文件:
from whisper_live.client import TranscriptionClient
client = TranscriptionClient(
"localhost",
9090,
is_multilingual=False,
lang="en",
translate=False,
model_size="small"
)
client("tests/jfk.wav")
·
从麦克风转录:
from whisper_live.client import TranscriptionClient
client = TranscriptionClient(
"localhost",
9090,
is_multilingual=True,
lang="hi",
translate=True,
model_size="small"
)
client()
·
从HLS 流转录:
client = TranscriptionClient(host, port, is_multilingual=True, lang="en", translate=False)
client(hls_url="http://as-hls-ww-live.akamaized.net/pool_904/live/ww/bbc_1xtra/bbc_1xtra.isml/bbc_1xtra-audio%3d96000.norewind.m3u8")
出自:https://mp.weixin.qq.com/s/sJ5T267U8Y6LGtWtWwghvA
MindNode,Apple生态下的著名的思维导图软件