国内厂商语音识别与Whisper评测:现状与概况对比
发布时间:2024年06月06日
随着人工智能技术的飞速发展,语音识别已经成为了现代社会中一个重要的研究领域。语音识别技术不仅可以应用于智能助手、语音控制、自动化客服等领域,还有望为残障人士提供更便捷的沟通工具。国内的科技企业在语音识别领域也在不断迭代和创新,其中不乏一些具有竞争力的语音识别技术,如讯飞、百度、阿里巴巴等,这些厂商的技术在一定程度上已经接近或达到了国际领先水平。同时,Whisper(飞思卡尔语音识别技术)作为一项国际上也备受关注的语音识别技术,在语音识别领域也有着广泛的应用。Whisper技术在噪声环境下依然能够准确识别并理解语音指令,因此在汽车、智能家居等领域有着广泛的应用前景。本文旨在通过对国内几家主要厂商的语音识别技术与 Whisper 技术进行评测和对比,以期更全面地了解国内语音识别技术的现状与概况。通过对技术性能、准确度、适应性等方面的对比,帮助读者更好地认识到语音识别技术的发展趋势和应用前景。
一、语音识别现状
二、评测意义与预期成果
三、评测方案
四、评测结果
一、语音识别现状
得益于近年来深度学习技术的快速发展,人工智能的主要分支(图像、语音、自然语言处理等)都相继进入了大规模落地应用阶段。梳理市场上的语音产品及服务,我们可以看到,其中既包括国际巨头:
·Google:Google Cloud语音API、 Google Home、音箱、Google移动端、网页端语音搜索
·Amazon:Alexa平台、Echo智能音箱
·Apple:Siri语音助手,HomePod智能音箱
·Microsoft:Azure平台感知服务语音API、Cortana智能助理
·Nuance:医疗、车载、智能硬件等垂直领域语音解决方案
也包括国内的大牌企业:
·阿里巴巴:阿里云平台语音服务、天猫精灵
·腾讯:腾讯云平台语音服务、微信、王者荣耀语音转文字
·百度:AIl开放平台、智能云、语音搜索、地图、小度音响、语音输入法
·科大讯飞:讯飞语音云、语音输入法、讯飞听见
·小米:小爱开放平台、小爱音箱、电视语音控制
·搜狗:知音平台、语音输入法、翻译机、录音笔
除此之外还有思必驰、出门问问、云知声、声智、地平线、依图等诸多的创业公司在探索语音技术的应用市场。
二、评测意义与预期成果
语音识别(speech recognition)技术,也被称为自动语音识别(Automatic
Speech Recognition, ASR)、电脑语音识别(Computer Speech
Recognition)或 语音转文本识别(Speech To Text, STT),其目标是以电脑自动将人类的语音内容转换为相应的文字。与说话人识别(Speaker recognition)及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
语音识别,也就是我们常说的“语音转文字”功能,已经悄然进入到人们的生产和生活中。面对上述如此之多的产品和服务,我们会很自然的产生疑问: “哪家的语音识别技术比较领先,识别准确率比较好?”这是一个难以回答的问题。
·第一:从近年来各家公司发布的令人眼花缭乱的宣传报告中,我们很难提取出足够的可靠信息做出判断;
·第二:实际上,如果说这个问题真的存在正确答案的话,那应该是“没有正确答案”。
于是本次评测的意义就有了。本文将从客观的角度出发,深入分析国内几家主要厂商的语音识别技术与Whisper技术在不同方面的性能,旨在为读者提供一个全面的语音识别技术现状和概况。通过对比与评测,读者将能够更好地认识到各技术的优劣势,为他们在实际应用中做出明智的选择提供参考。同时,本文也有助于推动国内语音识别技术的发展,促进技术创新和产业升级。
通过深入研究和对比分析,我们有望更全面地认识到语音识别技术的现状和概况,为技术研究、应用开发以及产业发展提供有益的指导和参考。
三、评测方案
测试方案:全厂商 × 全场景
厂商:微软、腾讯、讯飞、阿里、百度、依图、OpenAI、思必驰
本次评测的开源数据集总共有18种,具体如下:
评测方法与指标
常用一系列客观的评测方法和指标,包括但不限于以下几个方面:
·技术性能:对各厂商的语音识别技术进行性能测试,包括识别速度、实时性、延迟等方面的评估。
·准确度:在不同语境和场景下,对语音识别结果进行对比分析,以验证各厂商技术在准确度方面的优劣。
·噪声环境适应性:通过模拟不同噪声环境,评估各技术在复杂背景噪声下的表现。
·语音多样性:使用不同口音、方言、语速等条件进行测试,探究各技术在语音多样性方面的表现。
·应用场景适应性:结合智能家居、汽车导航等具体应用场景,分析各技术在不同场景下的适应性。
常用度量指标
·
1.WER(Word Error Rate 词错率,常用于英文识别)
·
1.CER( Character Error Rate 字错率,常用于中文识别)
将语音识别的输出字符序列与正确的字符序列进行比较,结果以 S(substitution)
表示替换的字符数目, D(deletion)表示删除的字符数目,I(insertion)表示插入的字符数目,N 表示参考序列中字符总数来计算WER和CER。计算公式:
·
1.响应速度、延迟 识别的速度与准确率,在一定区间存在相互制约的关系。耗费更多的计算资源总是可以换取一定的准确率提升。在这里,我们假设各家的公共识别服务已经选取了相对合适的操作点,即保证了对外服务的准确率,也兼顾了其背后的服务成本。同时,速度、延迟等指标还会受到服务外围工程实现、客户端网络条件、服务端负载等因素影响。所以本次更侧重对准确率的评测,短期内不会在评测中加入速度、延迟等指标。
四、评测结果
·Whisper原始模型字错率测试结果
·微调Whisper后字错率测试结果
·未加速和加速后的推理速度测试结果(GPU为A100)
重要说明:在评估的时候移除模型输出的标点符号,并把繁体中文转成简体中文。aishell_test为AIShell的测试集, RTF= 所有音频总时间(单位秒) /
ASR识别所有音频处理时间(单位秒)。测试速度的音频为dataset/test.wav,时长为8秒。训练数据使用的是带标点符号的数据,字错率会上升。
·
部分关注厂商评测结果
不同厂商在不同场景下的ASR评测结果
·
总结:本次主角 OpenAI 开源的
Whisper 模型(large-v2) 进行了全面的中文ASR测试,具体结果见上面对比图。中文识别作为 whisper 模型的支持的语种之一,在开源的 SpeechIO 评测集上,准确率已经超越了百度的付费商用服务,但目前看 Whisper 的中文准确率仍略低于其它头部厂商。
https://mp.weixin.qq.com/s/yCNbfeQ9z4uFPGZcYnwoug
利用大规模个性化视频来介绍...,Personalized Videos at Scale官网入口网址