设为首页 |  加入收藏
首页首页 期刊简介 消息通知 编委会 电子期刊 投稿须知 广告合作 联系我们
基于DNN的自动语音识别系统错误率评估方法

作者: 王梓赫;张培茗;司博宇; 
单位:1.上海理工大学健康科学与工程学院2.上海健康医学院医疗器械学院
关键词: 深度神经网络;隐马尔科夫;自动语音识别系统;系统性能评估;音素后验概率图; 
分类号:
出版年·卷·期(页码):2024·43·6(613-618)
摘要:

目的 为客观评估自动语音识别(automatic speech recognition, ASR)系统的词错率(word error rate, WER),满足言语能力受损人群的康复需求,促进特殊人群客观言语能力评估体系构建,本研究提供了一种直接根据深度神经网络(deep neural network, DNN)发出的音素后验概率预测WER的方法,而不是计算参考转录文本与隐马尔可夫(hidden Markov model, HMM)解码的转录文本之间的WER。方法 通过对语音信号进行特征提取并将其输入到DNN模型中以计算音素后验概率图(phonetic posterior grams, PPG)。通过PPG计算出反映ASR系统WER的3种性能指标以达到预测目的。最后,对在4种真实声学场景下所得WER预测数据进行分析,验证其有效性。同时,研究还搭建了20种不同深度、宽度的声学模型进行性能评估对比,探究了模型规模对预测效果的影响。结果 根据20种模型WER评估的数据,其中具有2层隐藏层且每层含512个神经元的网络模型对WER数据预测误差达到最小,省略ASR系统解码步骤而得到可靠的WER预测数据。结论 使用基于音素概率的性能指标可以实现对WER的有效预测,并且可以摆脱参考转录文本和单词标签的限制。

参考文献:

服务与反馈:
文章下载】【加入收藏
提示:您还未登录,请登录!点此登录
 
友情链接  
地址:北京安定门外安贞医院内北京生物医学工程编辑部
电话:010-64456508  传真:010-64456661
电子邮箱:llbl910219@126.com