基于人工智能深度学习的语音识别方法分析 摘要:语音识别是实现人机自由交互、推动人工智能发展的关键技术。当前市场上的语音识别系统十分的多,但是在进行语音识别研究的时候,理论研究与实际应用存在有较大的差异,导致在实际的应用过程中,语音识别系统难以达到理想的状态。在针对语音识别技术改进方面,我们可以充分利用人工智能的深度学习,加强语音识别系统对语音、语义识别的准确性和实时性。在研究的过程中,研究人员也要深刻意识到研究结果和实际运用会出现的差异和问题,以及研究结果是否可以满足人们对人工系统的语音识别需求。深度学习的加入就是为了加强语音识别系统的运用,满足人们对语音识别系统提出的更高要求。 关键词:人工智能;语音识别;方法分析 1语音识别技术的概述 语言识别技术其实就是让机器通过识别人的发音或是声线去进行理解,然后将语音信号转变为一种相应的文本,其过程可以简单总结为:语音信号预处理—语音信号特征提取—在语音模型库中找到相应的模式进行匹配—在语言模型库中对语言进行处理—完成识别。人们对语音识别准确性、实用型的需求促进了语音识别系统应用的快速发展,使得语音识别技术取得了一定的研究成果,语音识别系统也逐渐从实验室走向了人们的生活和市场。随着智能时代的到来,语音识别技术不仅在生活上对人们起到帮助,而且在通信技术、工业发展、甚至医疗区域都慢慢体现出了自己的价值。尤其近些年来是信息技术迅速发展的黄金时期,语音识别技术也是在这一时期得到更好的研究和探索,研究人员并将语音识别系统自身所能涉及的领域又进行了新的扩大。其中就包括对噪音信号的处理、信息的识别、以及对声线的识别和智能语音合成等。总的来说,人类能与机器进行畅通交流一直都是我们极力研究和期待的事情。 2目前传统语音识别系统存在的问题分析 2.1语音识别技术无法进行更好的提升 虽然现在有很多的设备都安装了语音识别系统,也做到了人与机器之间进行沟通,但是机器始终是机器,就算能够识别语音但是也只能识别一些基础的简单语言回。相对于专业的术语还很难做到识别和理解。研究者在通过各个方面的改造和创新,最终使得语音识别系统在知识理解方面加强了一些对外语以及方言的理解。但是,对于噪声处理、系统鲁棒性以及语音复杂模型等方面仍然是需要克服的问题,有待进一步提升。 2.2语音识别系统无法准确提取数据特征 近年来,互联网技术突飞猛进,很多设备也与互联网接轨,智能系统就成为了现在的社会主流。而语音识别就是这种主流中最重要的研究成果。在人们对语音识别进行研究的时候,会通过各种方式去收集语音数据,从而对语音识别进行更为仔细的研究和分析,但是这种语音数据靠传统的方法无法让语音识别系统进行更为准确的数据特征提取分析。传统的语音识别中,是依靠人工进行特征提取,进而进行模型训练,这种方法很大程度上受人为因素影响,显然是耗费人力又非常不稳定。深度神经网络可以进行自动特征提取,而且深度学习算法被广泛应用于大数据处理场景,所以利用深度学习进行特征准确提取,进而真正实现真正的人机交互成为语音识别技术的一项新挑战。 3人工智能深度学习的语音识别方法分析 3.1提高语音系统对特征的识别 语音信号特征的提取是语音识别系统中至关重要的第一步,主要目的是将语音信号携带的大量信息进性量化,得到能代表语音信号本省的特征,进行后续声学模型分析和处理。深度学习最先在图像识别中取得了优异的效果,随后在语音识别中也表现出了远远超过其他传统方法的强大优势。它特殊的训练方式可以给神经网络提供优秀的初始权值和偏重,从而让神经网络模型在训练中不至于陷入局部最优解,而是收敛于合理的极值点。深度神经网络可以学习到描绘原始音素的数据的本质特征,从而提高数据的可区分性,提升语音识别系统的性能。与此同时,深度神经网络学习到的深度特征,可以在降维后保证原有信息不受损坏,保持较高的音素识别率。利用深度神经网络对数据的层层映射表达,可以提取到更能表征原始数据的深度本质特征,进而提升传统语音识别系统的性能。 3.2提高人工智能下的语音识别系统训练模拟的强度 深层次神经网络系统可以利用语音预处理后的数据完成语音识别功能的模型训练。由于网络模型的层次深,网络的结构复杂,在训练过程中需要调整大量的参数信息。利用自编码的模型可以减少模型陷入局部最优解以及过拟合等问题。语音识别的仿真训练主要是为了使语音识别系统更好地掌握其所需的语音特性相关值。向语音识别系统中导入大量的数据进行多周期训练,能更有效提高语音识别系统的识别效果。除了在语音识别的系统中添加模拟的训练模板外,还应该对模板数据库中的字符进行识别。加入更多的相似词能够更好地提高语音识别系统的识别准确率,从而避免较低层次的错误。扩展和添加语音识别的模式能够从根本上加强语音识别系统识别语言信息匹配程度,从而加强语音识别系统的工作性能。另外,语音识别系统本身需要采集分析及掌握各种语言,因此添加语音模板是训练语音识别系统的较为行之有效的方法。 3.3融入运动学和声学特征提高语音情感识别 随着人工智能技术的快速发展,人们对人机交互也有了更高的期待,希望在进行沟通交流的时候可以带有感情,那么语音情感识别也逐渐被加入到语音识别系统中。分析语音中的情感信息并将其中的特征提取出来是非常复杂的过程,只是通过语音来识别说话人的情感本身就有自己的局限性,所以融入面部表情、发音器官运动数据,融入运动学和声学进行语音情感识别具有重要作用。由于发音器官的运动学数据采集难度系数较高,传统的语音情感识别只是基于声学和统计学,但是,随着科技的迅猛发展,面部表情运动数据、发生器官运动数据、声学数据等更多大量特征被釆集后逐渐融入到情感语音识别的行列中来。深度学习模型对数据的需求量大,加入发音器官运动学和声学特征可以很好的扩充样本数据量,进而优化情感语音识别模型。我们开展了大量的研究来提取和分析情感特征,可以帮助智能产品更好地识别人类情感状态,进而提高人机交互水平。未来的语音识别系统通过深度学习让人机交流真正带有情感,不仅需要做到对情感的识别,就是对于不同的年龄段、性别、以及发音习惯的情感声音能做到更好的识别和分析。 4结语 总而言之,语音识别技术是人类发展和社会进步的智慧结晶,我们需要融入更多元素,进行更多尝试,才能进行更好更深层次的提升语音识别技术。在高科技时代的发展背景下,语音识别系统已经达到了很好的服务水准,不论是在日常生活还是工作中,都起到了至关重要的作用。未来,基于人工智能的深度学习对语音识别系统将不断完善提升,发展空间十分广阔。 参考文献: [1]赵涛,张羿,王永和,等.基于深度学习的人机语音交互平台[J].信息系统工程,2019,301(01). [2]马树文.深度学习在语音情感识别中的应用与分析[J].科技传播,2019,11(4). [3]刘立辉,杨毅,王旭阳,等.机载任务系统语音交互技术应用研究[J].电子科技,2017,30(12). [4]孙可,刘忠武,吴雨洽,等.基于Python的深度学习语音识别[N].沈阳师范大学学报(自然科学版),2019,37(3). 作者简介:金宇(1986.04.19-)男,贵州贵阳,汉,大学本科,工程师,主网调度副班长,研究方向:电力调度。 项目名称:基于声纹和智能语音的调度操作票系统辅助监督机器人研究与应用。 本文来源:https://www.wddqw.com/doc/41cf0ad6ba4ae45c3b3567ec102de2bd9705dec3.html