分享到:

辽宁讯飞科技有限公司辽宁讯飞科技有限公司主营业务是:转写机,语音转写,语音转写机,讯飞转写机,语音识别转写,讯飞语音转写

联系资料

辽宁讯飞科技有限公司
所在地区:
辽宁省 沈阳市
公司主页:
暂无
电话号码:
1556*******
传真号码:
暂无
联 系 人:
暂无
移动电话:
1556*******
电子邮箱:
暂无

讯飞语音识别基本原理

发布于 2020年05月27日

[摘要]一个完整的语音识别系统通常包括信号处理与特征提取、声学模型、语言模型和解码搜索四个模块
  一个完整的系统通常包括信号处理与特征提取、声学模型、语言模型和解码搜索四个模块:

  在采集声音的过程中,由于环境和硬件设备等因素的影响,我们很难获取一段高保真、无噪声的语音,所以通常情况下,一个语音识别系统首先要做的是对输入的语音信号进行预处理。

  信号预处理工作主要包含静音切除和音频的分帧。静音切除也叫语音激活检测(Voice Activity Detection,VAD),其原理是将音频信号中的长时间静音片段进行提取、识别和消除,并将截取出的有效语音片段进行后续处理,从而降低静音片段带来的干扰;音频的分帧是把声音分割成一个个的小段,每一段我们称之为一帧。一般来说,经过分帧后,相邻两帧之间是有重合的。
音频的分帧
  Tips:单帧的长度为25ms,相邻两帧之间有15ms的重合,我们称为以帧长25ms、帧移10ms分帧。
  除此之外,还有很多其他的音频处理技术,感兴趣的读者可以查阅相关的音频信号处理方面的资料,这里不做过多讲述。

  信号处理完之后就是语言信号的特征提取工作,即把音频信号转换成一个个的特征向量,每个特征向量都是用来量化某个特定的声学特征。像这样从音频信号中提取出特征向量的过程就是语音特征提取。

  在传统语音识别中,人们在对语音信号进行特征提取时通常使用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients , MFCCs)特征。


更多行业资讯请关注辽宁讯飞科技有限公司,网址: