有这么多音素。如果真这么做,得到的状态号可能根本无法组合成音素。实际上,相邻
这样就把结果限制在预先设定的网络中,避免了刚才说到的问题,当然也带来一个局限,
比如你设定的网络里只包含了“今天晴天”和“今天下雨”两个句子的状态路径,那么不管
那如果想识别任意文本呢?把这个网络搭得足够大,包含任意文本的路径就可以了。
但这个网络越大,想要达到比较好的识别准确率就越难。所以要根据实际任务的需
搭建状态网络,是由单词级网络展开成音素网络,再展开成状态网络。语音识别过
程其实星空体育官方入口 星空体育官网就是在状态网络中搜索一条最佳路径,语音对应这条路径的概率最大,这称
其中,前两种概率从声学模型中获取,最后一种概率从语言模型中获取。语言模型
是使用大量的文本训练出来的,可以利用某门语言本身的统计规律来帮助提升识别
正确率。语言模型很重要,如果不使用语言模型,当状态网络较大时,识别出的结
声学模型是把语音转化为声学表示的输出,即找到给定的语音源于某个声学符号的概率。
对于声学符号,最直接的表达方式是词组,但是在训练数据量不充分的情况下,很难得到
一个好的星空体育官方入口 星空体育官网模型。词组是由多个音素的连续发音构成,另外,音素不但有清晰的定义而且数
量有限。因而,在语音识别中,通常把声学模型转换成了一个语音序列到发音序列(音素)
需要注意的是,由于人类发声器官运动的连续性,以及某些语言中特定的拼读习惯,
会导致音素的发音受到前后音素的影响。为了对不同语境的音素加以区分,通常使用能够
个状态,但是这会引起建模参数的指数增长,常用的解决方案是使用决策树先对这些三
观测值,状态之间的跳转符合马尔科夫假设。其中,状态转移概率密度多采用几何分布建