龙源期刊网 http://www.qikan.com.cn 揭密微软语音翻译软件内幕 作者:深度 来源:《电脑爱好者》2013年第03期 2012年11月,微软发布了一段视频(http://it.sohu.com/20121109/n357137973.shtml),微软首席研究官瑞克·拉希德(Rick Rashid)在视频中演示了他们正在研发的语音翻译软件的使用。这款软件不仅能将拉希德的现场演讲实时转换成文本显示在大屏幕上,而且能同步语音翻译成其他语言。借助软件,拉希德现场大秀了一段还算标准的中国普通话,声音中保留了拉希德的口音、音色和语调,听上去就像拉希德本人亲口所说。这正是微软研究院正在下大力气研发的语音翻译软件。 让机器像人一样识别声音 语音翻译(Speech translation)就是通过计算机系统实现持不同语言的说话人之间的话语翻译的过程,也称口语翻译或对话翻译。语音翻译技术一般包括三大部分:语音识别(输入)、机器翻译(转换处理)、语音合成(输出)。 我们知道,OCR识别。可以将纸面上的文字转变成电脑可识别的文本,而语音识别与其类似,不过它是将人的说话语音转变成文本。人的语音是千差万别的,如不同的方言口音,说话时的重复、停顿、错误等,都增加了软件对语音的识别难度。人工神经网络是较好的解决方案之一。 人工神经网络技术包括学习和识别两个过程。其中的学习过程,就是使用者按要求念出指定的文本,经过话筒转化为已知的语音信号作为学习样本,经过语音分段,从中求取语音的特征参数(这个过程反复多次,所以也称之为训练)。识别的过程则是,将待测的语音(同样经过话筒)进行语音分段,提取出特征参数,按一定的规则与学习所得的结果进行比对计算,最后得出识别的结果。可以看出,学习和识别的过程中,最关键的是语音特征参数的求取。 如图所示,语音信号输入就是将人的声带发出的模拟波形语音转换成数字波形,这样才能被计算机处理,这跟OCR识别中先把文字扫描进电脑的道理是一样的。人说话时一般都是连贯的,语音信号分段,就是根据字与字之间、词与词之间极短的间隔(低音或无音),将话语分解成每一个语音段,最后通过各种算法对处理过的语音段进行分析。比如不少语音识别系统中采用倒频谱(Cepstrum)分析,将倒频谱参数作为语音的特征参数输入神经网络中。 微软本次演示的软件,在人工神经网络技术上更进一步,采用了“深度神经网络”(Deep Neural Networks,DNNs)技术。 语音识别系统的本质,实际上就是对语音组成单元(音素)进行建模,比如英语中表达发音方式的大约也就30个音素。而深层神经网络(DNNs)将音素进一步细分,分解成更小的元 本文来源:https://www.wddqw.com/doc/ebe13cf6182e453610661ed9ad51f01dc38157cb.html