随着时代的进步,能够让那些机器听懂我们的话,并可以执行相应的操作,是我们梦寐以求的事。近几十年来,语音识别技术获得很大进步,这已经成为了语音识别领域发展新的方向。计算机、语言学、通信、数理统计、信号处理和人工智能等学科和语音信号识别有着很紧密的联系,信息量很大、不确定的性质,开发软硬件的价钱就会是其中原因之一。而且语音识别在哪些传统的机器上花费的成本高,操作起来也复杂,同时花的时间也比较长。所以本设计采用了M3的单片机和语音识别芯片组成的电路去完成本次设计。本系统操作简单,容易上手。
CNN被用于语音识别中也有段时间了,2012、2013年的那时候CNN就被OssamaAbdel-Hamid引入进了语音识别当中。那时的卷积层与pooling层是一个出现了下一紧接出现。DeepCNN被用于语音识别中也有段时间了,2012、2013年的那时候CNN就被OssamaAbdel-Hamid引入进了语音识别当中。那时的卷积层与pooling层是一个出现了下一紧接出现。
语音是人们的自然属性其中之一,因为发音器官生理的差异和后来慢慢形成的发音习惯等等行为的差异,每个人的声音音拥有非常鲜明的个人特点,这个可以让我们通过分析语音信号去识别说话的人成为一种可能。确认谁是说话人是说话人识别当中的一种,可以通过提取说话的人声音中的个人特征去确认他的身份。说话人识别所用到的语音是人体固定的生物上的特征,被冒充或者窃取是比较难的,能任何时候去使用,而且能利用电话网络完成远距离的服务,相比较于传统的密码、钥匙等等身份识别的方法会更加的安全、更加的有效、更加的可靠,所以拥有较广泛的应用领域,人们越来越重视语音识别。
从人类能制造与使用各种机器,人们有了目标,那个就是让各种机器能够听懂人类的说的语言,而且可以按照人们的语音指令去行动,最终实现人和机器语言交流就像人和人之间的语言上的交流,随着科学技术不断在进步,机器通过识别和理解把语音信号转变为相应的文本或命令的语音识别技术让人类可以与机器交流,信息技术中人机交流的重要技术之一就是语音识别,它涉及门多学科REF_Ref3698\r\h错误!未找到引用源。。人们结合了语音识别技术和合成技术,用户可以说出相应指令让机器去执行进行相应的操作,这时候就不需要按键或者其他动作去操作机器。一个让人们脱离按键、键盘、触摸屏的新兴高技术产业已经崛起了,那就是语音识别技术。
用户戴上可穿戴设备,可以通过可穿戴设备追踪人们的心跳速度和运动的情况,还可以通过检测用户的血压和其他身体状况为用户提供合适的菜谱。还有其他情况,比如对医生与患者谈话的存的档案,语音直接呼叫中心,紧急情况时求助的语音等等。因为医疗领域词汇库的专业性比较强而演变性差,为了医护人员对于疾病名称、药品名称精确的识别,人们需要建立完整的数据库。在国内已经有的应用比如病历夹和珍立拍,医生通过语音搜索患者的病例资料,病人的病历资料能安全存储在这两个应用中。
一直有很多目光在行车安全的问题上,有人设计出过一个车上的屏幕,为了解决司机操作触摸屏会过度分散注意力,人们能利用多指的简单手势,能利用目前已经有定制过的汽车级语音平台,用户用手机连接车载平台,说出相应指令去看信息和发信息,不认识路时语音调出GPS导航,接电话或打电话,社交网络的更新等。
Intel就已经开发出来可穿戴设备原型Jarvis,能佩戴在耳朵上以后,手机连入可穿戴设备,用来实现听懂主人给出的指令,并且给语音反馈的功能,类似于Siri的个人语音助手的角色。
对于家居而言,智能电视、智能冰箱、智能家用机器人都可以用语音指令控制,可以搜片、提醒用户食物的到期时间、提醒、简单交流等等。智能语音用一种新的方式去收集更多的人体数据,整合各种各样的智能家居,更多的去定制不一样的场景,可以满足更加个性化的需求。
语音识别的其中难点之一是各个地方语言和方言的不同,在国外语音类教育产品市场结构和国内恰恰相反,语音合成占到了30%左右,国内多了50%以上,而语音识别却占比差不多70%,比国内多了50%。在中文语音识别领域方面,国内的发展空间还是很大的,人们需要继续努力,最后一定会超越。
非特定人语音识别技术:用户不用提前进行录音的训练获得声音的模板,识别关键词语的列表可以用户自己编写传送进芯片,这样在下次语音识别中,用户说出相应的语音指令就可以得到识别结果REF_Ref3855\r\h错误!未找到引用源。。
为了让手机等设备可以识别人类的声音,人们研究了非特定人语音识别技术。人和机器进行交流与通信最方便的方法从声音是中提取出来语音中包含的特征信息。每个人的声音都有不同的特征这就意味着为每个人建立语音样本,这在某种程度上增加了语音识别广泛应用的难度。每个人的声音都有不同的特点,而且发出声音也可能会得到识别结果,这无非也增加了识别的难度。会非特定人语音识别技术从根本上属于基于统计模式的基本理论,语言模型训练和识别分析两个大阶段构成了非特定人语音识别技术,如图2-1所示,还可以通过这两个阶段实现非特定人语音识别技术REF_Ref3904\r\h错误!未找到引用源。。这个图使非特定人语音识别技术构成一目了然,让用户更加了解该技术,在设计该系统时也会更加理解。
图2-2语音识别模块的麦克风采集外部语音,模块对接收到的语音指令进行音频分析,提取语音的特征,在语音识别器中把语音特征和内部的识别列表进行比对,得到最终的识别结果。这个识别结果由并行口传送给单片机。如图2-2所示,语音识别模块的麦克风采集外部语音,模块对接收到的语音指令进行音频分析,提取语音的特征,在语音识别器中把语音特征和内部的识别列表进行比对,得到最终的识别结果。这个识别结果由并行口传送给单片机。
ICRoute公司的产品:语音识别芯片LD3320,它采用了ASR技术,是一种基于语音的用户界面VUI,它甩掉了按键、鼠标、键盘、触摸屏等等GUI操作的方式,让用户对这个系统的操作更加简单和快速,为了下一次的语音识别中能识别出来,用户需要把下次需要识别的关键词语用字符串的形式传进语音识别芯片中,列表里的关键词语可以是单字、词组、短句或其他的中文发音的组合,本系统可以在任何时刻支持不同的场景,是因为运行这个系统时,关键词语列表中的条目可以被更改REF_Ref4037\r\h错误!未找到引用源。。
本系统的语音识别方案是以STM32F103RCT6为核心,外围加非特定人语音识别芯片及相关电路构成。本系统的语音识别芯片选用了ICRoute公司的LD3320芯片REF_Ref4070\r\h错误!未找到引用源。。TFTLCD电阻屏作为系统的显示屏显示语音指令;语音识别模块使用SPI通信将语音识别结果以二进制代码的形式传送给单片机,单片机得到该二进制代码后,即可根据二进制代码进行查关键词语列表中的条目,去查到相应的内容后执行相应的操作;MCU收到的语音识别结果与关键词语列表里其中一条匹配成功,使用串口通信将“xxx指令识别成功”传给电脑,串口助手显示;使用按键1开启一次语音识别过程;使用ATC02芯片小容量存储每一次的语音识别结果。再去关键词列表中查询,查到相应的功能执行相应的操作,LCD屏上显示“xxx指令识别成功”。
本系统在程序下载进单片机后,LCD屏显示“请开始语音识别”,按下按键1,开始一次语音识别过程,语音识别模块使用SPI通信将语音识别结果以二进制代码的形式传送给单片机,单片机得到该二进制代码后,即可根据二进制代码进行查关键词语列表中的条目,去查到相应的内容后执行相应的操作;MCU收到的语音识别结果与关键词语列表里其中一条匹配成功,使用串口通信将“xxx指令识别成功”传给电脑,将结果存储于AT芯片中,再去关键词列表中查询,查到相应的功能执行相应的操作,LCD屏上显示“xxx指令识别成功”。
如图3-1所示,系统由语音识别模块、MCU、LCD屏、电源四部分组成。语音识别模块完成对外部声音信号的采集和放大。将声音信号转化为电信号,并放大到0~3V。MCU的ADC参考电压为其电源电压3.3V。MCU对语音识别模块输入的声音信号进行AD转换,然后提取并识别信号特征。另外,MCU还控制LCD屏的显示。LCD屏负责显示操作界面,并接收用户操作。电源为电池供电。
设计采用基于ARM的STM32F103RC单片机作为主控的MCU,使用高性能的ARMCortex-M332位的RISC内核,工作频率为72MHz,内置高速存储器,丰富的增强I/O端口和联接到两条APB总线个PWM定时器REF_Ref4312\r\h错误!未找到引用源。,系统由语音识别模块、MCU、LCD屏、电源四部分组成。语音识别模块完成对外部声音信号的采集和放大。将声音信号转化为电信号,并放大到0~3V。MCU的ADC参考电压为其电源电压3.3V。MCU对语音识别模块输入的声音信号进行AD转换,然后提取并识别信号特征。这些丰富的外设配置,使得STM32F103xx大容量增强型系列微控制器适合于多种应用场合。所以在本系统中采用STM32F103RC作为主控制器。
2)SDIO:一般应用,只使用4根数据线),分别代表控制线RC单片机的硬件原理图
如图3-3所示,单片机包含了电源电路,复位电路和启动方式电路。硬件是指单片机的各个模块用户可以根据硬件原理图知道主控芯片和具体模块的连接IO口和连接方式。IO口是主控芯片MCU和外界交流的唯一通道,通过原理图获得模块与MCU连接的IO口,通过配置相应的寄存器让模块和MCU间建立通信,从而实现相应的功能。STM32F103RC单片机的硬件原理图如图3-3所示,该硬件原理图详细说明了每个IO口不同的功能和应用模块。
常见的显示设备种类有:LED、显示数码管、点阵LED显示屏、LCD液晶显示屏,这几种设备各有各的优点。常见的显示设备种类有:LED、显示数码管、点阵LED显示屏、LCD液晶显示屏,这几种设备各有各的优点。广泛用于电视,手机,电脑,平板等各星空体育 星空体育平台种的电子产品。在目前市面上,一个完整的LCD显示系统由三部分组成:主控系统、LC星空体育 星空体育平台D显示控制器、LCD显示屏。
LD3320语音芯片模块的语音识别还未完全成熟。那么这些原因就导致了下面的问题:用户说了一个指令,识别结果却是另一个指令。用户没有说话,模块反而做出应答了。还有用户说了好几遍口令,模块才有识别结果。
模块的语音识别还未完全成熟。那么这些原因就导致了下面的问题:用户说了一个指令,识别结果却是另一个指令。用户没有说话,模块反而做出应答了。还有用户说了好几遍口令,模块才有识别结果。
垃圾词,即和我们的关键词一样,只是不对它进行操作的关键词。例如我们的关键词是“流水灯”,识别到“流水灯”后MCU可以进行进行流水灯操作。那么它对应的垃圾词可以为:“流水”,“流水灯啊”等与关键词类似音调的词语,我们对这些词语识别后不进行处理,即不做任何操作。那么这些语音就是我们所说的垃圾词了,因为它识别后不起任何作用,只用来避免干扰关键词。
语音识别对声音特别敏感,如果用户想要得到比较准确的识别结果,需要保持安静,完成语音识别的环境要没有噪音,这样最后的识别结果才正确率越高。如果在有噪音的情况下,一是可能得不到正确的识别结果,或者可能得到的识别结果是不对的,这些情况都会大大增加识别的错误率。
本语音识别系统包括:LD3320语音识别模块,LED模块,按键模块,蜂鸣器模块,LCD模块。
图4-1为语音识别部分原理图。系统由语音识别模块、MCU、LCD屏、电源四部分组成。语音识别模块完成对外部声音信号的采集和放大。将声音信号转化为电信号,并放大到0~3V。MCU的ADC参考电压为其电源电压3.3V。MCU对语音识别模块输入的声音信号进行AD转换,然后提取并识别信号特征。然后是LD3320与MCU相关接线ae;
基于2-羟基-1-萘甲醛的Schiff碱Al3+荧光分子探针.docx
QJ350-12E(闪350皮带款)维修手册2022.12.23.pdf
(高清版)B-T 4798.3-2023 环境条件分类 环境参数组分类及其严酷程度分级 第3部分:有气候防护场所固定使用.pdf
原创力文档创建于2008年,本站为文档C2C交易模式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中间服务平台,本站所有文档下载所得的收益归上传人所有。原创力文档是网络服务平台方,若您的权利被侵害,请发链接和相关诉求至 电线) ,上传者