语音识别是近年来十分新潮的一个技术,随着人工智能的进一步发展,目前已经开始了高速的成长期,市场也在培养起广大群众的使用兴趣,语音识别发展潜力必然是巨大的,产业前景光明。
本实验中采用的语音交互系统大多都是使用89C51单片机等系统,对语音芯片LD3320获得的信息进行处理,并进行一系列科学的控制,将外接的麦克风获取的各种信号,通过语音芯片LD3320进行频谱分析,提取结构的特性,再与关键词列表进行科学的匹配,进而找出适配度最高的关键词,它就是最终我们需要的识别结果。把它交给单片机处理后,输出的信号来进行其他设备的控制最后被系统输出,这就是我们常说的语音的智能控制?目前,已有的实验纷纷表明,语音识别系统能对发出的语音做出一系列反应,进行预想中的人机交互过程,需要的环境噪音要小一点,并且它的发音必须十分清楚。
近些年来,语音识别技术获得了明显进步,还通过不同的方法一步步迈进了市场。相关的数据可以告诉我们,未来的一段时间,语音识别技术一定会进入我们身边的通信、家电、医疗、汽车、电子服务等各个领域。如今,人类和机器进行自由交流,让它明白你的想法,是人们十分向往的事情。可以说,当今世界都已经公认,语音识别技术是近几十年间信息技术领域最重要的科技发展趋势。
所谓语音识别,就是让机器具有识别与理解的能力,把语音信号转化成相应的文字的技术。根据实际情况的不同,科学家们将它分为:分不分特定人与非特定人、识别独立词与连续词的、识别小词汇量与大词汇量、无限词汇量。但无论哪种类型的系统,其基本原理和具体的手段都十分类似。
语音识别的整个过程包括提前对发出的信号进行一系列的处理、提取、并且进行信息匹配等工作。总的来说,数据的预处理过程包括提前设置波段、采样和量化分析、预加重、端点检测等过程。可以说,这些复杂的流程里面最重要的就是提取不同信息的特征值。一般来说,可以进行提取的特征参数具体以下的特征:
对系统进行前期的训练之时,要处理各种参数,并为创建每个条目的模型,最后,将该模型另存为模板库。在识别信号的阶段,各种各样的信号通过相同的方法获取各项特征参数,生成一个模板,并根据之前的模板匹配具有最合适的参考模板作为最终结果。
目前,我们在市场上使用的各种语音识别系统都采用统计的方法来分析所有输入的信息。这种方式的识别方法得到的典型语音识别系统的模块如下:
(1)信号处理和提取模块。设计它的主要任务是从各种各样的信号中提取信号的特征,然后对他们进行声学处理。同时,它还采用了不同的信号处理技术,以减少系统产生的噪声、扬声器故障等对整个系统的影响。
(3)发音的分类。它包含了具体的系统所能处理的所有发音的集合。它在实际的应用之中提供了声学模型的建模单元与语言模型建模之间的关系。
(4)各类语言模型。语言模型它的存在主要是对系统可以使用的语言进行建模。一般来说,各种语言词汇模型,不同情况之下的规则和上下文无关语法等等内容,都可以作为语言模型。然而,统计及其变体在实际生活中仍被广泛使用。
(5)解码语音的机器。它可以说是语音识别系统的最核心部件。它可以根据声学、词汇集合、语言模型等等,从而以最快的速率输出输入各种各样的信号。
在计算机发明之前,自动语音识别的想法被提上日程。早期的声码器是语音识别和合成的初始形态。1920年左右美国生产的“雷克斯收音机”玩具狗是当前全世界公认的最早的语音识别系统,当人们叫到狗的名字时,它可以从系统中弹出。
在1950年以后,伦敦大学(ColledgeofLondon)的一些研究者已经充分的已经语的语法,并且致力于将它使用到语音识别系统中。1960年开始,各式各样的人工神经网络系统被引入语音识别环节。在这些年之中,科学界的两大突破是出现了线性预测编码LinearPredictiveCoding(LPC)以及动态时间规整DynamicTimeWarp技术。
总的来说,语音识别技术的最主要的突破是科学家们发现了、和,并在此基础之上进一步对他们的特性、结果。功能等等方面进行了相当细致的研究,卡内基梅隆大学的Kai-FuLee终于实现了第一个基于隐马尔可夫模型的Sphinx词汇量语音识别系统。从那以后,严格来说,语音识别技术还没有离开HMM框架。
随着当前国际上对计算机进行数字信号的处理和运算、识别方面的要求越来越高,使得相关发明的系统精度也越来越好,识别系统可以进行有效识别的词汇量大小、分类也有了质的飞跃。我们还要知道,不同的用户需要决定了语音识别系统的发展方向。目前,市场上使得的大多数是中等词汇量的识别系统,但是,我们可以相信到将来,可能主要的产品就是大词汇量的语音识别系统。
1952年,戴维斯等人在贝尔研究所成功开发出世界上第一个可以识别10种英语数字发音的实验系统。
1960年,丹尼斯等人在英国成功开发出第一台计算机语音识别系统。自20世纪70年代以来,大规模语音识别研究在识别小词汇量和孤立词方面取得了实际性进展。
进入80年代以后,研究的重点逐渐转向大词汇量、非特定人连续语音识别研究思维发生了重大变化,从基于标准模板匹配的传统技术转到基于统计模型(HMI)的技术。此外,还提出了将神经网络技术引入语音识别的想法。
自20世纪90年代以来,语音识别系统框架-直没有重大突破。然而,?在语音识别技术的应用和生产方面已经取得了很大进展。
在美国国防部的视觉研究项目机构(DefenseAdvancedResearchProjectsAgency)在20世纪70年代资助了国防高级研究计划局(DARPA)一个为期10年的项目,以支持语言理解系统的研究和开发。
在20世纪80年代,美国国防部的视觉研究计划局资助了一项为期10年的DRPA战略计划,其中包括语音识别和噪声对话(语音)识别系统,其任务是“1000字连续语音数据库管理”。
到20世纪90年代,DARPA项目仍在进行中。研究重点已转移到识别装置的自然语言处理部分,该部分已被设定为航空旅行信息检索”。
1981年,日本提出了第五代计算机程序中语音识别输入和输出的自然语言的宏伟目标。虽然预期目标尚未实现,但语音识别技术的研究得到了极大的加强和改进。
自1987年以来,日本开发了一个新的国家项目二先进的人机对话界面和自动电话翻译系统。
我国的语音识别研究始于1958年。直到1973年,中国科学院声学研究所才开始认识计算机语音。由于当时条件的限制,中国的语音识别研究-直处于缓慢发展阶段。
自20世纪80年代以来,随着中国计算机应用技术的逐步推广和应用以及数字信号技术的进一步发展,我国许多单位具备研究语音技术的基本条件。同时,经过多年的沉默,语音识别技术已成为世界研究的热点,并迅速发展。在这种形式下,许多国内单位投入了这项研究工作。
它的具体应用如下,除此之外,语音识别芯片在其他领域的应用也是特别多的。随着科技对它各项技术的不断完善,它能带来的各项便利会愈来愈多。
(1)家电遥控。一般来说,各个位置的窗帘、空调,电视,DVD,风扇等等都可以通过语音进行控制。除此之外,在不远的将来,它还可以控制家中的所有星空体育网站 星空体育首页电子设备以及电器,使我们的各种操作更加便捷。
(2)汽车控制。我们都知道驾驶员的手必须时刻放在在车辆的方向盘上,因此我们必须使用带自动拨号的免提电话在车辆上进行呼叫等功能。此外,各种各样的,空调,照明系统和音响等等的操作也可以通过语音进行高效的控制。
(3)个人数字处理。主要指方面。经常使用的PDA是非常小的。由于在PDA中使用键盘非常不方便,它的界面一直是实际应用的技术瓶颈,因此通常使用手写来输入、查询信息。然而,这种方法仍然常常有很多不方便。但是,不得不说当前的业界一致认为PDA是最高效的人机交互界面。随着语音识别技术的不断创新,语音将成为将来PDA机器的最主要界面。
(4)语音拨号。特别是在中高端的手机使用过程之中,声控已经得到了大家的一致好评。随着未来语音识别芯片的进一步普及,普通电话也可以进行更加智能的操作。
(5)婴幼儿的智能玩具。在当前市场上的语音识别系统的各种使用中,我们已经可以与各种各样的玩偶进行自由交谈,并且命令他们让他们做一些简单的游戏,甚至可以使用电子看门狗来对我们的日常生活提供语音控制。因此,智能玩具具有极大的发展潜力,尤其是在语音芯片的价格越来越低的时候。
(6)工业及医疗行业。首先,我们要知道机器由声音控制,机器再对声音产生一系列反应。举个例子,当人的眼睛或手使用的时候,控制的最佳方式是增加人与机器之间的语音交互。
系统的每个识别过程可以高效的将用户的说话内容转换为数据,然后逐个匹配语音特征和“关键字列表”中的项目。最佳匹配是识别的结果。例如,当在语音控制的移动电话中应用ASR技术时,该“关键字列表”的内容是电话簿中的人的姓名,以及各种各样的内部数据。不论手机的存储卡、手机里面的内容如何,相关的寄存器一旦经过专门的设定,后续就可以把他们以字符的形式传递给其他的系统。
因此,现在几乎所有的识别芯片的任务是对不同的用户输入的各种数据进行信息的提取、进一步分析,提取最主要特征,然后在整个系统中比较和匹配最适合的关键词,最后找到分数最高的语音结果就是本次的识别结果。整个语音识别的系统框架如图2.1所示。
该类型的芯片具有8位CPU,几个振荡器和不同的电路,外部存储部存储器寻ROM,RAM64K,两个16位定时定/计数器,5个中断源,两个中断优先极,不同的串口与MCS-51有不同程度的兼容,除此之外,还有4K字节节闪和其他零件。一般情况之下,它的可以达到1000写/擦循环;数据保存10年;工作状态是:0Hz-24MHz。其他的优势也包括:价格便宜,开发时间短和资源配置更加灵活。
LD3320芯片包含了语音识别功能和一些经常见到的零部件,包括AD,DA转换器,不同规格的输入装置,输出的接口等。它具有十分特殊的语音识别芯片功能。因此,不需要任何的辅助芯片,如闪存和RAM,可以与其他的智能产品中进行交流和合作,更高效的实现人机直接对话或者其他类型的高级功能对线个特定系统能识别的信息,他们的兴衰不一定要一致,可以是单词,较短的短语或完整的整句,但是,它的总长度不超过10个中文字符或79个拼音字母。并且它可以独立于扬声器进行特殊环境下的语音识别。另一方面,它还可以动态地编辑和修改识系统之中的内容,并且能够支持在多个环境中进行自由的使用。
LD3320芯片大多材料就是采用48脚QFN塑料,供电3.3V。LD3320芯片还支持并行和串行的连接方式,而不是与其他模块的连接。他的结构具体包括识别算法,输入和输出模块等部分,其中,最重要的语音识别功能由AD/DA转换模块完成。
大多数寄存器都具体不同类型的读写功能,包括接受信息,设置开关等等。寄存器的内容空间为,可能的取值范围为。
,它的规则是数据先进先出,它由于没有外部读写地址线因此很容易使用。这也是和之间的区别。
一般来说,最小系统包括微控制器及其所需的各种规格的电源,时钟,复位组件等等,以使整个系统得以正常工作。该系统是我们设计的整个系统的核心部分。其中,电源和时钟是微控制器正常运行的必要条件。实际应用之中,我们可以通过扩展整个系统的存储空间和,因此,这个系统可以执行更多更复杂的功能。
是一款我们在现在十分常用的单片机,它的内部带有。因此,使用它的时候,我们最后得到的最小系统会更加的便捷可靠。另一方面,当使用的单片机设计我们的最小应用系统时,只需将不同规格的微控制器连接到时钟和复位电路即可。可是,往往由于具体功能
2025年全国安全生产月“人人讲安全、个个会应急——查找身边安全隐患”主题宣讲PPT课件.pptx
《危险化学品企业安全生产标准化通用规范》专业深度解读与应用培训指导材料之5:5管理要求-5.4 安全教育和培训(雷泽佳编制-2025A0).pdf
2025年云南省时事政治考试试卷带解析及答案(精选题)真题题库.docx
原创力文档创建于2008年,本站为文档C2C交易模式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中间服务平台,本站所有文档下载所得的收益归上传人所有。原创力文档是网络服务平台方,若您的权利被侵害,请发链接和相关诉求至 电线) ,上传者