讯飞语音识别基本原理

发布于 2020年05月27日

[摘要]一个完整的语音识别系统通常包括信号处理与特征提取、声学模型、语言模型和解码搜索四个模块

一个完整的系统通常包括信号处理与特征提取、声学模型、语言模型和解码搜索四个模块：

在采集声音的过程中，由于环境和硬件设备等因素的影响，我们很难获取一段高保真、无噪声的语音，所以通常情况下，一个语音识别系统首先要做的是对输入的语音信号进行预处理。

信号预处理工作主要包含静音切除和音频的分帧。静音切除也叫语音激活检测（Voice Activity Detection，VAD），其原理是将音频信号中的长时间静音片段进行提取、识别和消除，并将截取出的有效语音片段进行后续处理，从而降低静音片段带来的干扰；音频的分帧是把声音分割成一个个的小段，每一段我们称之为一帧。一般来说，经过分帧后，相邻两帧之间是有重合的。

音频的分帧
Tips：单帧的长度为25ms，相邻两帧之间有15ms的重合，我们称为以帧长25ms、帧移10ms分帧。
除此之外，还有很多其他的音频处理技术，感兴趣的读者可以查阅相关的音频信号处理方面的资料，这里不做过多讲述。

信号处理完之后就是语言信号的特征提取工作，即把音频信号转换成一个个的特征向量，每个特征向量都是用来量化某个特定的声学特征。像这样从音频信号中提取出特征向量的过程就是语音特征提取。

在传统语音识别中，人们在对语音信号进行特征提取时通常使用梅尔频率倒谱系数（Mel-Frequency Cepstral Coefficients ， MFCCs）特征。

更多行业资讯请关注辽宁讯飞科技有限公司，网址：

辽宁讯飞科技有限公司辽宁讯飞科技有限公司主营业务是：转写机,语音转写,语音转写机,讯飞转写机,语音识别转写,讯飞语音转写

联系资料

辽宁讯飞科技有限公司

最新信息

讯飞语音识别基本原理