• 使3G手机上植入更精确更复杂的自动语音识别 (ASR)功能成为可能。目前,基本ASR应用可以分 成三大类:1. 语音-文本转换(语音输入);2. 讲者识 别;3. 语音命令控制(语音控制)。
• 这三类功能包含了3G所需的众多ASR性能。语音文本转换的典型实例是语音拨号和电子邮件听写。 讲者识别功能可以通星空体育网站 星空体育首页过语音识别安全地读出存储器 中的个人数据,从而满足信用卡定购和银行服务等 保密性高的应用需要。语音命令控制功能包括连接 语音扩展标记语言(VXML)网站内容的语音接口,它 支持财经服务与目录助理等业务。目前VXML被用 于规范网站内容的语音标签。
立在“短时”的基础上,即进行“短时分 析”,将语音信号分为一段一段来分析其 特征参数,其中每一段称为“一帧”,帧 长一般取为10-30ms。这样,对整体的语音 信号来讲,分析出的是由每一帧特征参数 组成的特征参数时间序列。
语音信号中含有丰富的信息,但如何从中提取 出对语音识别有用的信息呢?特征提取就是完成这 项工作,它对语音信号进行分析处理,去除对语音 识别无关紧要的冗余信息,获得影响语音识别的重 要信息。特征提取一般要解决两个问题,一个是从 语音信号中提取(或测量)有代表性的合适的特征 参数(即选取有用的信号表示)另一个是进行适当 的数据压缩。目前。语音识别技术中应用最流行的 特征参数是基于人的声道模型和听觉机理的LPCC, LPCMCC, MFCC 和ZCPA(语音的上升过零率和非线性 幅度)方法提取语音的特征参数。
◆ 不同的语音识别系统,虽然具体实现细节有所不 同,但所采用的基本技术相似,一个典型语音识别系 统的实现过程如图1所示。
待识别的语音经过话筒变换成电信号后加在识 别系统的输入端,首先要经过预处理,预处理预处 理包括反混叠失真滤波、预加重和端点检测。等。 经过预处理后,按照一定的特征提取方法产生语音 特征参数,这些特征参数的时间序列便构成了待识 别语音的模式,将其与已经存储在计算机内的参考 模式逐一进行比较(模式匹配),最佳匹配(由判决规 则确定) 的参考模式便是识别结果。参考模式是在系 统使用前获得并存储起来的,为此,要输入一系列 已知语音信号,提取它们的特征作为参考模式,这 一过程称为训练过程。
2.OMAP平台可使应用程序开发人员无须深入了解 DSP基础硬件架构或算法即可利用这些高级功能。 高级应用程序接口(API)方便地获得DSP加速算法, 兼容主流的几乎所有的操作系统,Linux、Palm OS、Symbian OS、Windows Mobile。
• 低硬件要求:程序加模型所需存储空间100kB~300kB,在 手机、PDA上能够实时识别;
• 能够识别国标二级6763汉语单字、几百条常用词汇、短 信用语;(可以更换字符集和字库),保证任何汉字的输入;
• 高精度汉语语音识别技术,十选覆盖率 98%(其它两个参考 指标:首选识别率为75%,三选覆盖率为 92%);
语音识别的研究工作大约开始于五十年代,当时AT& T Bell 实验室实现了第一个可识别十个英文数字的语音识别系统— Audry系统。 六十一年代,计算机的应用推动了语音识别的发展。这时期的 重要成果是提出了动态规划(DP)和线性预测分析技术(LP),而 后者较好地解决了语音信号模型的问题,对语音识别的发展产 生了深远影响。 七十年代,语音识别领域取得了突破。在理论上,LP技术得到 进一步发展,动态时间规整技术(DTW)基本成熟,特别是提出了 矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上,实现了 基于线性预测倒谱和DTW技术的特定人孤立语音识别系统.
技术”。因为语音信号从整体来看,其特 性及表征其本质特性的参数均是随时间而 变化的,所以它时一个非平稳态过程。不 能用处理平稳信号的数字信号处理技术对 其进行分析处理。但是从另一方面看,在 一个短时间范围内(一般认为在10-30ms 的短时间内)。其特性基本保持不变,即 相对稳定,因而可以将其看作是一个准稳 态过程。即语音信号具有短时平稳性。
• 根据对说话人说话方式的要求,可以分为孤立字 (词)语音识别系统,连接字语音识别系统以及 连续语音识别系统。
• 根据词汇量大小,可以分为小词汇量、中等词汇 量、大词汇量以及无限词汇量语音识别系统。
1.多为中、小词汇量的语音识别系统,即只能够识别10~100 词条。 2.一般仅限于特定人语音识别的实现,即需要让使用者对所 识别的词条先进行学习或训练,这一类识别功能对语种、方言 和词条没有限制。 3.由此芯片组成一个完整的语音识别系统。因此,除了语音 识别功能以外,为了有一个好的人机界面和识别正确与否的 验证,该系统还必须具备语音提示(语音合成)及语音回放 (语音编解码记录)功能。 4.多为实时系统,即当用户说完待识别的词条后,系统立即 完成识别功能并有所回应,这就对电路的运算速度有较高的 要求。 5.除了要求有尽可能好的识别性能外,还要求体积尽可能小、 可靠性高、耗电省、价钱低等特点。
语音特征参数是分帧提取的,每帧特征 参数一般构成一个矢量,因此语音特征量 是一个矢量序列。语音信号中提取出来的 矢量序列经过数据压缩后便成为语音的模 板。显然,特征的选取对识别效果至关重 要,选择的标准应尽量满足以下两个要求:
(1)能有效的代表语音特征,包括声道特征 和听觉特征,具有很好的区分性。
◆ 语音识别技术简介 ◆ 特征提取算法 ◆ RBF识别网络 ◆ 语音识别系统
语音识别最基本的定义是“电脑能听懂人类说话 的语句或命令,而做出相应的工作”。也就是说, 如果电脑配置有“语音识别”的程序组,那么当你 的声音通过一个转换装置输入电脑内部、并以数位 方式存储后,语音识别程序便开始以你的声音样本 与事先存储好的声音样本进行对比工作.声音对比 工作完成后,电脑就会输出一个它认为最“象”的 声音样本序号,由此可以知道你刚才念的声音是什 么意义,进而执行命令。计算机自动语音识别的任 务就是研究如何利用计算机从人的声学语音信号中 提取有用信息,并从中确定语音信号的语言含义。 其应用背景及学科基础如图所示。其最终目标是实 现人与机器进行自然语言通信。
• 解决了向基本的 RISC 添加 DSP难以为循环 缓冲、位反转、并行移动以及硬件回路等提 供面向 DSP 寻址等缺陷
• DSP 桥接器提供了ARM与DSP之间的链接, 而无需涉及太多的细节,DSP 桥接器基本上 能够导出一系列 API 到运行于 ARM 上的多 媒体引擎,以便访问 DSP 资源。
• 大词汇量连续语音识别系统,主要应用于计算机 的听写机,以及与电话网或者互联网相结合的语 音信息查询服务系统,这些系统都是在计算机平 台上实现的;
• 小型化、便携式语音产品的应用,如无线手机上 的拨号、汽车设备的语音控制、智能玩具、家电 遥控等方面的应用,这些应用系统大都使用专门 的硬件系统实现。
• 高准确度音调识别技术,准确率高于95%; • 采用国际领先的基于统计模型HMM的非特定人语音识别技
术,无需学习,适用于各个年龄使用者,对方言也有一定的 适应能力; • 在线累计式说话人自适应技术,使设备在使用中不知不觉的 被喂熟,自学习功能使输入的准确率随着பைடு நூலகம்用时间直线上 升; • 词汇随时自定义,每增加100条词汇仅占用1至2K存储 空间;
• 自动调整功能包含词频动态调整和低频自动屏蔽,在使用中 可以动态调整侯选词词序而提高输入速度;
• 采用单字和词组混合模式的输入速度为每分钟20到50个 汉字,已接近或超过用户在PC机上的汉字输入速度;
• 大大降低了手指的疲劳程度,在多数情况下,首选识别结果 准确时,用户无需手动干预;
语音识别所遇到的难题是搜索最佳识别结果和 参数训练。目前,语音识别所应用的模式匹配和模 型训练技术主要有动态时间归正技术(DTW)、隐 马尔可夫模型(HMM)和人工神经元网络(ANN)。 由于人工神经网络中大量神经元并行分布运算的原 理、高效的学习算法以及对人的认知系统的模仿能 力等都使它极适宜于解决类似于语音识别这一类课 题,它既适用于底层又适用于顶层。人工神经网络 是在模拟人脑神经组织的基础上发展起来的全新的 计算系统,它是由大量计算单元通过丰富联结构成 的复杂的网络。在一定程度上反映了人脑功能的若 干基本特性,是一种更接近于人的认知过程的计算 模型。
(2)特征参数要计算方便,在保持高识别率 的情况下,最好有高效的计算方法,以减 小存储要求并保证语音识别的实时实现。
(1)线性预测系数(LPC) (2) LPC倒谱系数(LPCC) (3)Mel频率倒谱系数(MFCC)
(4 ) LPC美尔倒谱系数(LPCMCC) (4)zcpa特征(过零率与峰值幅度特征:
语音识别具有广阔的应用前景,随着信息产业和互联 网的快速发展,对语音识别的需求也更加迫切。比如在 声讯服务中,要实时查询股票交易、航班动态、车站票 务动态等,用传统的声讯技术已难以胜任,而用语音技 术则能解决这些海量信息的动态查询。还有,人们希望 在嵌入式系统中做成无处不在的信息家电,希望把因特 网上的信息用电话送到千家万户,还有一个更美好的愿 望,就是在不久的将来,能够把语音、图像、动画与互 联网技术相结合,造就虚拟现实的新一代多妈体,语音 技术大大降低了人们迈进信息时代的门槛,并开辟了许 多新的信息服务及应月领域,它现在形成一个新兴的产 业。正因为如此,世界各国不仅把语音技术列入了高技 术研究计划,而且作为21世纪信息产业的重要竞争市场。
OMAP(Open Multimedia Applications Platform 开放式 多媒体应用平台)是TI公司针对移动通讯以及多媒体 嵌入应用系统开发的一套应用处理器架构体系。
1.为加速信号处理的速度,OMAP平台的内核软件 组件允许应用程序利用数字信号处理器(DSP), 从而提高终端应用性能。
• 组词功能自然衍生高精度语音人名拨号(Name_dialing)功 能,而且容量比现有手机中的人名识别技术高一个数量级 (从10-20到100-200),成十倍地提高用户查找电话本的时 间;
• 便捷友好的交互界面,与现有系统兼容,充分考虑用户习惯; • 采用人耳仿生学原理设计的语音识别特征提取算法,大大提
进入九十年代,随着多媒体时代的来临迫切要求语音识 别系统从实验室走向实用。许多发达国家如美国、日本、 韩国以及IBM, Apple, AT&T, NTT等著名公司都为语音识别 系统的实用化开发投以巨资.
我国语音识别研究工作起步于五十年代,但近年来发 星空体育网站 星空体育首页展很快,研究水平也从实验室逐步走向实用。从1987年开 始执行国家863计划后,国家863智能计算机专家组为语 音识别技术研究专门立项,每两年滚动一次。我国语音识 别技术的研究水平已经基本上与国外同步,在汉语语音识 别技术上还有自己的特点与优势,并达到国际先进水平。 其中,具有代表性的研究单位是清华大学电子工程系与中 科院自动化研究所模式识别国家重点实验室。