语音辨识已沦为人与机器通过自然语言交互最重要方式之一,本文将从语音辨识的原理以及语音辨识算法的角度抵达为大家讲解语音辨识的方案及详细设计过程。语言作为人类的一种基本交流方式,在数千年历史中获得持续承传。近年来,语音辨识技术的大大成熟期,已普遍应用于我们的生活当中。语音辨识技术是如何让机器“听不懂”人类语言?本文将为大家从语音前端处置、基于统计学语音辨识和基于深度自学语音辨识等方面阐释语音辨识的原理。
随着计算机技术的飞速发展,人们对机器的倚赖早已超过一个极高的程度。语音辨识技术使得人与机器通过自然语言交互沦为有可能。最少见的情形是通过语音掌控房间灯光、空调温度和电视的涉及操作者等。并且,移动互联网、智能家居、汽车、医疗和教育等领域的应用于造就智能语音产业规模持续快速增长,2018年全球智能语音市场规模将超过141.1亿美元。
(数据来源:中商产业研究院整理)目前,在全球智能语音市场占到比情况中,各巨头市场占有率由大到小依序为:Nuance、谷歌、苹果、微软公司和科大讯飞等。(数据来源:中商产业研究院整理)语音辨识的本质就是将语音序列切换为文本序列,其常用的系统框架如下:接下来对语音辨识涉及技术展开讲解,为了便于整体解读,首先,讲解语音前端信号处理的涉及技术,然后,说明语音辨识基本原理,并进行到声学模型和语言模型的描述,最后,展出我司当前研发的离线语音辨识demo。1前端信号处理前端的信号处理是对完整语音信号展开的涉及处置,使得处置后的信号更加能代表语音的本质特征,涉及技术点如下表格所述:1、语音活动检测语音活动检测(VoiceActivityDetection,VAD)用作检测出有语音信号的接续方位,分离出语音段和非语音(静音或噪声)段。
VAD算法大体分成三类:基于阈值的VAD、基于分类器的VAD和基于模型的VAD。基于阈值的VAD是通过萃取时域(短时能量、短时过零率等)或频域(MFCC、序熵等)特征,通过合理的设置门限,超过区分语音和非语音的目的;基于分类的VAD是将语音活动检测作为(语音和非语音)二分类,可以通过机器学习的方法训练分类器,超过语音活动检测的目的;基于模型的VAD是建构一套原始的语音辨识模型用作区分语音段和非语音段,考虑到实时性的拒绝,未获得实际的应用于。
2、减震在生活环境中一般来说不会不存在例如空调、风扇等各种噪声,减震算法目的在于减少环境中不存在的噪声,提升信噪比,更进一步提高辨识效果。常用减震算法还包括自适应LMS和维纳滤波等。
本文来源:尊龙凯时网站-www.htyqc.com