首页 > Ai资讯 > Ai知识库 > 基于 OpenAI Whisper 模型的实时语音转文字工具

基于 OpenAI Whisper 模型的实时语音转文字工具

发布时间:2024年06月06日

今天给大家分享一款专注于音频处理和创作的开源软件【WhisperLive

 

什么是WhisperLive?

· WhisperLive 是一款专注于音频处理和创作的开源软件,使用 OpenAI Whisper 模型将语音输入转换为文本输出,可以用于转录麦克风的实时音频输入和预先录制的音频文件,为艺术家和音乐制作人提供了一个强大的平台,用于实时音频处理、效果制作和声音合成。

· WhisperLive 具有跨平台支持的优点,可以在不同的操作系统上运行,包括 Windows、macOS 和 Linux。还提供直观的图形界面,可以通过拖放界面元素来设置和控制音频处理效果和合成器。

WhisperLive 的主要特点包括:

1. 实时音频处理:WhisperLive 支持实时音频处理,可以在音频流上应用各种效果和合成算法,实现声音的实时变换和创作。

2. 高度可定制性:WhisperLive 允许通过编写插件和脚本语言来自定义其功能和界面,以适应不同的音乐制作和声音设计需求。

3. 跨平台支持:WhisperLive 支持多种操作系统,包括 Windows、macOS 和 Linux,可以在不同的平台上使用。

4. 直观的界面:WhisperLive 提供了直观的图形界面,可以通过拖放界面元素来设置和控制音频处理效果和合成器。

5. 开源和社区支持:WhisperLive 是开源的,这意味着可以免费使用和修改其源代码。此外,WhisperLive 的社区非常活跃,可以在社区中寻求帮助、分享经验和插件。

安装使用

· 安装PyAudio 和 ffmpeg

· 

bash setup.sh

· pip 安装 WhisperLive

· 

pip install whisper-live

· 运行服务

· 

from whisper_live.server

import TranscriptionServerserver = TranscriptionServer()

server.run("0.0.0.0"9090)

· 

转录音频文件:

 

from whisper_live.client import TranscriptionClient

client = TranscriptionClient(  

"localhost",  

9090,  

is_multilingual=False,  

lang="en",  

translate=False,  

model_size="small"

)


client("tests/jfk.wav")

· 

从麦克风转录:

 

from whisper_live.client import TranscriptionClient

client = TranscriptionClient(  

"localhost",  

9090,  

is_multilingual=True,  

lang="hi",  

translate=True,  

model_size="small"

)

client()

· 

HLS 流转录:

 

client = TranscriptionClient(host, port, is_multilingual=True, lang="en", translate=False

client(hls_url="http://as-hls-ww-live.akamaized.net/pool_904/live/ww/bbc_1xtra/bbc_1xtra.isml/bbc_1xtra-audio%3d96000.norewind.m3u8"

 

 

 

 

出自:https://mp.weixin.qq.com/s/sJ5T267U8Y6LGtWtWwghvA