浅析语音识别技术原理

日期：2024-11-27 浏览：　

　　1952 年，贝尔实验室发明了自动数字识别机，是世界上第一个能识别 10 个数字发音的实验系统，从此正式开启了语音识别的进程。

　　1980 年，声龙推出了第一款语音识别产品 Dragon Dictate，这是第一款面向消费者的语音识别产品。

　　2009 年，深度技术兴起，语音识别进入了 DNN 时代，语音识别精准率得到了显著提升。

　　2011 年，苹果首次在 iphone4s 上加入智能语音助手 Siri。至此，智能语音与手机深度绑定，进入广大消费者的日常生活。

　　2017 年，微软在 Swichboard 上达到词错误率 5.1%，从而让语音识别的准确性首次超越了人类。

　　本文查阅了很多资料文章，并且加入了自己的理解，为了通俗易懂牺牲了一部分严谨性，有些内容可能不会十分准确。

　　声音：是物体震动产生的声波。声音与波有着相同的关键特征，也可以称为声波或者机械波。声音的本质是波的传递，不是物质的传递。

　　听觉：是各种波源的振动通过各种弹性介质（气体、固体、液体）传播到耳膜引起耳膜的震动。耳蜗中有液体，液体中有纤毛（显微镜才能看到），纤毛运动产生神经信号通过神经传递给大脑，人们就可以听见声音了。

　　声音是听觉对声波产生的感知，而声波的本质是介质的振动，比如空气的振动。那么我们只需要把这个振动信号记录下来，并用一串数字来表达振动信号振动的快慢和振动的幅度，就可以实现声音的记录。

　　然后，振膜随空气抖动的振幅大小产生相应的电学信号。我们把这种带有声学表征的电学信号叫做模拟信号（Analog Signal）。

　　最后，通过 A/DC（模数转换器）将模拟信号转换成数字信号（Digital Signal）。即通过 PCM（Pulse Code Modulation）脉冲编码调制对连续变化的模拟信号进行抽样、量化和编码转换成离散的数字信号。

　　PCM 文件就是未经封装的音频原始文件或者叫做音频“裸数据”。是无法直接播放的数据。

　　采样位深也就是每个采样点用多少 bit 来表示。比如位深是 16 就代表每个采样点需要 16bit 来进行存储。从物理意义上来说，位深代表的是振动幅度的表达精确程度或者说粒度。

　　一般在网络电线bit 的位深，这样不太会影响听感，并且存储和传输的耗费也不是很大。而在做音乐或者更高保真度要求的场景中则可以使用 32bit 甚至 64bit 的位深来减少失线bit 时失真就比较严重了

　　有的音乐就追求这种模糊感，所以“8bit”有的时候也代表一种听感朦胧的音乐艺术类型。采样率

　　有损封装：顾名思义，有损的音频封装格式主要是通过压缩算法把文件大小尽量减少，但是在解压缩的时候却无法完美还原音频原来的数据（即有损）。虽然叫做有损音频格式，但其实发展到现在，有损音频格式比如 MP3 一般可以达到 1:10 的压缩比，即存储体积为未压缩音频的十分之一。但在听感上和无损格式比起来，如果不是专业人士很难听出区别。

　　无损封装：使用可完美还原的压缩算法把文件大小尽量减少，解压时能够完美还原音频原来的数据。比如 FLAC 和 APE 等编码封装格式。FLAC 与 APE 的压缩比基本相同，其中 FLAC 的压缩比为 58.70%，而 APE 的压缩能力则要更高一些，压缩比为 55.50%。它们都能压缩到接近源文件一半大小。

　　一段音频包含的信息其实可以有很星空体育网站星空体育首页多。比如，里面可能有语音、乐器、噪声等多种信号，而其中的语音部分，是我们平时实时音频互动中最重要的部分。

　　语音编解码器：基于 ITU 标准的 G.71 等就是针对如何保持语音部分而设计的。

　　音乐编解码器：为了传输更多的信息，比如包括音乐甚至“噪声”等全部音频信号的编 / 解码器，例如基于 MPEG 标准的 MP3 和 AAC 也陆续出现。

　　时域线性预测编解码器：这种编 / 解码器参考了声道的发音特性，将语音信号分解为主要的线性预测系数和次要的残差信号。而线性预测系数编码所需的比特率非常少，却能高效地构建出语音信号的“骨骼”；残差信号则像是“血肉”，能够补充出语音信号的细节。这种设计大幅提升了语音信号的压缩效率。但是这种基于时域的线性预测框架在有限的复杂度下无法很好地编码音乐信号。

　　语音音乐混合编码器：融合了时域和频域两种编码框架的优缺点， webrtc 中默认使用的 OPUS 就是这类编解码器。

　　声道就是声音传播所通过的地方，发音的声道主要是指我们的三个腔体，即咽腔、口腔和鼻腔。而语音是由声源和声道共同作用产生的。按照声源的不同我们把语音分成以下两类：

　　能量最强的峰值。人声的共振峰有一个有意思的特性，每一个音都有对应的一个共振峰，而且这个共振峰不随音高的改变而改变

　　数字信号，并使用机器学习算法和统计模型对数字信号进行分析和处理，最终将其转换为文本或命令。特征提取 MFCC

　　在任意一个 ASR 系统中，第一步就是提取特征，我们需要把音频信号中具有辨识性的成分提取出来，然后把其他的乱七八糟的信息扔掉，例如背景噪声、静音片段等等。也就是说将语音物理信息（频谱包络和细节）进行编码运算得到的一组特征向量。

　　例如一个汽车轮胎上会有一些字符，225/45R17 91W 2317。2319 表示轮胎的日期为 2019 年第 23 周。

　　加性噪声：和信号无关的噪声，例如自然噪声、人造的噪声如电子元器件发出的热噪声、风声、汽笛声、键盘敲击声等。

　　线性滤波器：对算力要求比较低，必须事先知道噪声会在哪个频段出现，比如一些硬件厂商知道自己的硬件噪声特性就可以使用线性滤波器来降噪。

　　随时间变化的，然而由于人的口腔与喉部发声的固有特性，在一个短时间范围内，一般为 10∼30ms 之间，其特征基本保持不变，即语音信号是短时平稳的。所以在对语音信号进行频域分析时需要一帧一帧的处理，帧长一般取 10∼30 ms 。

　　。耳蜗中有液体，液体中有纤毛（显微镜才能看到），纤毛运动产生神经信号通过神经传递给大脑，人们就可以听见声音了。研究表明人耳对以 Hz 为单位的频率并不是很敏感，并且人耳对低频信号的感知要比高频信号敏感。例如，我们可以比较容易地发现 500 和 1000Hz 的区别，但很难发现 7500 和 8000Hz 的区别。

星空体育·(StarSky Sports)官方网站-星空官方认证

浅析语音识别技术原理