目的 为客观评估自动语音识别(automatic speech recognition, ASR)系统的词错率(word error rate, WER),满足言语能力受损人群的康复需求,促进特殊人群客观言语能力评估体系构建,本研究提供了一种直接根据深度神经网络(deep neural network, DNN)发出的音素后验概率预测WER的方法,而不是计算参考转录文本与隐马尔可夫(hidden Markov model, HMM)解码的转录文本之间的WER。方法 通过对语音信号进行特征提取并将其输入到DNN模型中以计算音素后验概率图(phonetic posterior grams, PPG)。通过PPG计算出反映ASR系统WER的3种性能指标以达到预测目的。最后,对在4种真实声学场景下所得WER预测数据进行分析,验证其有效性。同时,研究还搭建了20种不同深度、宽度的声学模型进行性能评估对比,探究了模型规模对预测效果的影响。结果 根据20种模型WER评估的数据,其中具有2层隐藏层且每层含512个神经元的网络模型对WER数据预测误差达到最小,省略ASR系统解码步骤而得到可靠的WER预测数据。结论 使用基于音素概率的性能指标可以实现对WER的有效预测,并且可以摆脱参考转录文本和单词标签的限制。
|