OpenAI 开源语音识别 Whisper 的使用体验怎么样?
发布时间:2024年06月06日
作者:知乎用户
链接:https://www.zhihu.com/question/575983499/answer/3055288368
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
近期,AI 领域异常热门,众多惊人且令人担忧的工具不断涌现。今天,我们将向大家推荐一款能够提升我们工作效率的 AI 工具(下载地址见文末)。
关于Buzz
Buzz 是一款基于 OpenAI 开源 Whisper 自动语音识别模型的软件工具,能够将音频或视频中的语音自动识别为带有时间戳的文本字幕。这款工具具有很高的速度,能够在批量处理中大幅提高生产效率。
Buzz 语音转文字工具的特点
- 高度精确:基于 OpenAI 提供的 Whisper 自动语音识别技术,这是一款功能强大的机器学习模型。
- 快速转换:Buzz 的模型在本地离线运行,无需互联网连接,因此转换速度非常快,适用于大量语音转换。
- 跨平台兼容:支持 Windows / macOS / Linux。
- 多语言支持:不仅支持中文,还支持许多其他国家的语言,并能够将结果翻译成英文,但只限于英文翻译。
Buzz上手体验
自今年初以来,ChatGPT
的热度一直居高不下,而与之相伴的 AI 内容和工具也备受关注。今年,我们向大家推荐一款效率软件 Buzz。它是基于人工智能公司「OpenAI」(开发了 ChatGPT)所开源的 Whisper 模型制作的。这款软件能够高效地将视频和音频自动转换为文本。
当您首次启动 Buzz 时,AI 模型将被下载到您的计算机上。一旦下载完成,所有的语音转录文本过程都将在您的电脑上运行,转换速度非常快。
Buzz 的软件界面非常简洁,仅提供英文界面,但是有限的几个功能按钮并不会影响到使用体验。
以 Buzz win版本为例,在打开软件后,我们可以点击 "+" 按钮选择文件,接着选择语言(也可以采用默认的自动识别选项)。在自动转录完成后,当进度达到 100% 时,双击即可查看识别内容。此外,Buzz 还支持将识别结果导出为 TXT 格式的纯文本或通用的 SRT 字幕文件,非常便捷。
我曾经向大家推荐过飞书秒记这款在线工具,虽然它的确方便易用,但不能进行批量转换,而且音频文件还需要在线上传,依赖网络,对效率产生了很大影响。
开源说明
Buzz 是一款开源且免费的软件,能够自动将语音识别成文本字幕。该软件基于 OpenAI 的 Whisper 语音识别模型,这款 AI 模型也是免费且开源的,大家可以放心下载并使用
Buzz。
请注意,在 Mac
AppStore 上,Buzz 推出了高级版本 Buzz Captions,其完整度更高,但是需要付费购买。请大家在选择时注意区分。
Buzz 本身并没有官方网站,源代码和软件包仅在 Github 项目主页提供下载。对于非开发者来说,获取软件包可能比较麻烦。因此,我整理了适用于 Mac 和 Windows 的软件包放到网盘,便于大家在下载。至于 Linux 版本,考虑到使用 Linux 系统的用户访问 Github 不是难事,所以并未提供网盘链接。
获取工具关键词
230601
发布于 2023-06-02 08:51・IP 属地江苏
赞同 61 条评论
分享
收藏喜欢收起
更多回答
已认证账号
关注
2 人赞同了该回答
我尝试了下,从我的使用体验上说,这款语音识别工具十分强大。首先在准确度上,除了正常发音,我还尝试了不同的语言和口音,它都能准确识别出来。其次在速度上,它能极快地转换音频文件,无需等待太长时间。
但是Whisper对设备有一定要求,必须要有一块优秀的显卡提供良好的性能和效果,所以设备不支持的朋友就很难享用到它了。
别担心,除了Whisper我还使用过其他3款语音识别软件,它们也能很好地满足大家的使用需求,觉得不错的话记得点赞收藏哦~
一、网易见外
网易出品的一个可以实现音视频转写,字幕翻译,文档翻译的在线网站。
登录进入工作台后,使用语言识别功能,点击【新建项目】-【语音转写】。
将音频导入后,填写文件语言和出稿类型,最后点击【提交】,等待它转写完成就好啦~
二、录音识别王
它是一款功能十分强劲的音频软件,包括了录音机、语音翻译、文字转语音、视频转文字等热门工具。并且还有各种音频制作功能,例如音频格式转换、音频裁剪、音频合并、音频分割、音频压缩等。
要使用它的语音识别,点击【实时录音转文字】,当用户说话时,它就能实时把用户的声音实时转换为文字。
我自己试了一下,当我已经说了几百个字的时候,它处理的速度依然很快,并且识别准确。
支持开启智能降噪功能,过滤噪音,让识别更加准确。支持修改输出格式,有MP3和WAV可选。
识别完成后,支持编辑修改错误的地方,并且文本可以被导出为Word、PDF等文档形式,录下来的音频也可以进行裁剪和修改倍速等操作。
三、WPS Office
它对于久经职场的各位肯定不陌生,现在的它不仅能编辑文档、演示文稿等,还拥有语音识别、视频剪辑等多种办公需要的工具。
进入软件主界面后,点击【应用】,在搜索栏搜索【音视频转文字】,点击后进入音视频转文字的窗口。
将文件导入后,设置转写语言和转写领域,点击【开始转写】即可,只不过该功能需要开通会员才能使用。
出自:https://www.zhihu.com/question/575983499/answer/3055288368
如果你想要了解关于智能工具类的内容,可以查看 智汇宝库,这是一个提供智能工具的网站。
在这你可以找到各种智能工具的相关信息,了解智能工具的用法以及最新动态。
画本妖鸡,多人有声剧文本处理协作系统,专为主播定制的阅读器。