人工智能-语音识别技术课件ppt

日期：2024-11-16 浏览：　

　　有这么多音素。如果真这么做，得到的状态号可能根本无法组合成音素。实际上，相邻

　　这样就把结果限制在预先设定的网络中，避免了刚才说到的问题，当然也带来一个局限，

　　比如你设定的网络里只包含了“今天晴天”和“今天下雨”两个句子的状态路径，那么不管

　　那如果想识别任意文本呢？把这个网络搭得足够大，包含任意文本的路径就可以了。

　　但这个网络越大，想要达到比较好的识别准确率就越难。所以要根据实际任务的需

　　搭建状态网络，是由单词级网络展开成音素网络，再展开成状态网络。语音识别过

　　程其实星空体育官方入口星空体育官网就是在状态网络中搜索一条最佳路径，语音对应这条路径的概率最大，这称

　　其中，前两种概率从声学模型中获取，最后一种概率从语言模型中获取。语言模型

　　是使用大量的文本训练出来的，可以利用某门语言本身的统计规律来帮助提升识别

　　正确率。语言模型很重要，如果不使用语言模型，当状态网络较大时，识别出的结

　　声学模型是把语音转化为声学表示的输出，即找到给定的语音源于某个声学符号的概率。

　　对于声学符号，最直接的表达方式是词组，但是在训练数据量不充分的情况下，很难得到

　　一个好的星空体育官方入口星空体育官网模型。词组是由多个音素的连续发音构成，另外，音素不但有清晰的定义而且数

　　量有限。因而，在语音识别中，通常把声学模型转换成了一个语音序列到发音序列（音素）

　　需要注意的是，由于人类发声器官运动的连续性，以及某些语言中特定的拼读习惯，

　　会导致音素的发音受到前后音素的影响。为了对不同语境的音素加以区分，通常使用能够

　　个状态，但是这会引起建模参数的指数增长，常用的解决方案是使用决策树先对这些三

　　观测值，状态之间的跳转符合马尔科夫假设。其中，状态转移概率密度多采用几何分布建

星空体育·(StarSky Sports)官方网站-星空官方认证