公务员期刊网 精选范文 语音识别技术范文

语音识别技术精选(九篇)

前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的语音识别技术主题范文,仅供参考,欢迎阅读并收藏。

语音识别技术

第1篇:语音识别技术范文

【关键词】语音识别技术;发展趋势

语音识别是一门交叉学科。语音识别研究经历了50多年的研究历程,经过50多年的积累研究,获得了巨大的进展。特别是近20年来,语音识别技术取得了显着的进步,并逐步的走向市场。在未来的日子里,语音识别技术将应用更为广泛。

一、语音识别技术概述

语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术开发出的产品应用领域非常广泛,如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等,几乎深入到社会的每个行业和每个方面。

广泛意义上的语音识别按照任务的不同可以分为4个方向:说话人识别、关键词检出、语言辨识和语音识别。说话人识别技术是以话音对说话人进行区别,从而进行身份鉴别和认证的技术。关键词检出技术应用于一些具有特定要求的场合,只关注那些包含特定词的句子,例如对一些特殊人名、地名的电话监听等。语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术,本质上也是语音识别技术的一个方面。语音识别就是通常人们所说的以说话的内容作为识别对象的技术,它是4个方面中最重要和研究最广泛的一个方向,也是本文讨论的主要内容。

二、语音识别的研究历史

语音识别的研究工作始于20世纪50年代,1952年Bell实验室开发的Audry系统是第一个可以识别10个英文数字的语音识别系统。

1959年,Rorgie和Forge采用数字计算机识别英文元音和孤立词,从此开始了计算机语音识别。

60年代,苏联的Matin等提出了语音结束点的端点检测,使语音识别水平明显上升;Vintsyuk提出了动态编程,这一提法在以后的识别中不可或缺。60年代末、70年代初的重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。

80年代语音识别研究进一步走向深入:HMM模型和人工神经网络(ANN)在语音识别中成功应用。1988年,FULEE Kai等用VQ/I-IMM方法实现了997个词汇的非特定人连续语音识别系统SPHINX。这是世界上第1个高性能的非特定人、大词汇量、连续语音识别系统。

进入90年代后,语音识别技术进一步成熟,并开始向市场提品。许多发达国家如美国、日本、韩国以及IBM、Apple、AT&;T、Microsoft等公司都为语音识别系统的实用化开发研究投以巨资。同时汉语语音识别也越来越受到重视。IBM开发的ViaVoice和Microsoft开发的中文识别引擎都具有了相当高的汉语语音识别水平。

进入21世纪,随着消费类电子产品的普及,嵌入式语音处理技术发展迅速[2]。基于语音识别芯片的嵌入式产品也越来越多,如Sensory公司的RSC系列语音识别芯片、Infineon公司的Unispeech和Unilite语音芯片等,这些芯片在嵌入式硬件开发中得到了广泛的应用。在软件上,目前比较成功的语音识别软件有:Nuance、IBM的Viavoice和Microsoft的SAPI以及开源软件HTK,这些软件都是面向非特定人、大词汇量的连续语音识别系统。

三、语音识别技术的发展现状

语音识别技术通过全球科学家的共同努力,经历半个多世纪的研究,目前已经发展到了接近实用的阶段。在实验室环境下,大词汇量的朗读式连续说话的宽带语音信号的平均识别率可以达到90%以上。正式有了如此高的识别率之后,语音识别技术慢慢地从实验室演示系统逐步走向实用化商品。以IBM Via Voice和Dragon Dictation为代表的两个听写机系统的出现,使“语音识别”逐步进入大众视线,引起了广泛的社会关注。

由于校对和更正识别的错误很麻烦和浪费时间,这样便降低语音识别的优势。同时,由于使用的环境或讲话口音习惯等因素的影响,语音识别的内容大大降低,识别的内容不能达到100%的正确,所以很多人认为目前的语音识别系统还无法满足实用要求。

目前,AT&T和MIT等将语音识别技术应用在一些有限词汇的特定任务上,如电话自动转接、电话查询、数字串识别的任务中,当讲话的内容是系统所存储的内容存在的,且使用环境的声学特性与训练数据的声学特性相差不太大时,语音识别的正确识别率可以接近100%。但是,在实际使用中如果这些条件被破坏,则会对识别系统造成一定的影响。

我国的语音识别研究一直紧跟国际水平,国家也很重视。国内中科院的自动化所、声学所以及清华大学等科研机构和高校都在从事语音识别领域的研究和开发。国家863智能计算机专家组为语音识别技术研究专门立项,并取得了高水平的科研成果。我国中科院自动化所研制的非特定人、连续语音听写系统和汉语语音人机对话系统,其准确率和系统响应率均可达90%以上。

四、语音识别技术发展趋势

语音作为当前通信系统中最自然的通信媒介,语音识别技术是非常重要的人机交互技术。随着计算机和语音处理技术的发展,语音识别系统的实用性将进一步提高。应用语音的自动理解和翻译,可消除人类相互交往的语言障碍。国外已有多种基于语音识别产品的应用,如声控拨号电话、语音记事本等,基于特定任务和环境的听写机也已经进入应用阶段。这预示着语音识别技术有着非常广泛的应用领域和市场前景。随着语音技术的进步和通信技术的飞速发展,语音识别技术将为网上会议、商业管理、医药卫生、教育培训等各个领域带来极大的便利,其应用和经济、社会效益前景非常良好.

虽然语音识别在过去的20年里有了很大的发展,但是,仍然存在很多的不足,有待于进一步的探索,具体可分为以下几个方面:

1.提高可靠性。语音识别技术需要能排除各种声学环境因素的影响。在比较嘈杂的公共环境中,人的意识会有意识的排除非需要的声学环境因素,这对语音识别系统而言,是很难做到的。另外,在日常生活中,人类的语言常常具有较大的不确定性,比较随意,并带有明显的言语习惯。这同样会给语音识别系统很大的识别麻烦。目前,在提高语音系统在不同环境中的可靠性,同时要应用现代技术让语音识别系统更加智能化,掌握人们语言随意性的部分规律,以达到最佳的识别效果。

2.增加词汇量。系统可以识别的词汇的数量是系统能够做什么事情的一个重要度量。一个语音识别系统使用的声学模型和语音模型如果太过于局限,当用户所讲的词汇超出系统已知的范围时,则语音识别系统不能准确的识别出相应的内容,比如,当突然从中文转为英文、法文、俄文时,计算机就会常常输出混乱奇怪的结果。但是,随着系统建模方法的不断改进、搜索算法效率的提高以及硬件资源的发展,未来的语音识别系统可能会做到词汇量无限制和多种语言混合,这样用户在使用的时候可以不必在语种之间来回切换,这样就能大大减少词汇量的对语音识别系统的限制。

3.应用拓展。语音识别技术可以用于把费脑、费力、费时的机器操作变成一件很容易很有趣味性的事,比如,当人们出现手忙、手不能及以及分身无术的场景时,通过语音识别系统的模型构造,则能够在象驾驶室、危险的工业场合、远距离信息获取、家电控制等各个方面,语音识别技术可能带动一系列崭新或更便捷功能的设备出现,更加方便人的工作和生活。其应用的范围和前景非常广泛。不仅能够应用于日常生活,更重要的会带来生产方式的革命,是下一代智能化控制的基础。

第2篇:语音识别技术范文

语音识别技术的应用

与机器进行语音交流,让机器明白你说什么,这是我们长期以来梦寐以求的事情。而提起语音识别.我们最容易想到的还要数不会讲笑话的Siri。

作为世界上第一家上市的语音识别公司,Siri的“娘家”Nuance有着辉煌的历史,曾经在语音领域一统江湖。苹果iPhone手机的虚拟语音助手Siri、三星的语音助手S-Voice.各大航空公司和顶级银行的自动呼叫中心和虚拟在线语音助手,都采用了Nuance的技术。近年来,Nuance的语音识别技术已经从实验室走向市场,将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

在智能车载领域,Nuance定制的汽车级语音平台Dragon Drive获得了201 5CES创新大奖,通过将车载平台与手机连接,Nuance可以帮用户实现语音控制GPS导航、信息收发、电话接打、社交网络更新等等。

在前一段时间,Nuance在其官方博客上,公布了将发力医疗领域的消息。消息中说,Nuance在医疗领域进军,不仅仅通过智能手表追踪运动情况和心率,还将会直接根据人的身体状况匹配相应的服务,如合适的餐厅或食物等,当然这些大多是基于可穿戴设备的。另外他们还考虑到更多场景.诸如紧急语音求助、医患对话存档、呼叫中心的对话听写等。

随着互联网技术的快速发展,以及手机等移动终端的普及应用,目前可以从多个渠道获取大量文本或语音方面的语料,这为语音识别中的语言模型和声学模型的训练提供了丰富的资源,使得构建通用大规模语言模型和声学模型成为可能。在语音识别中,训练数据的匹配和丰富性是推动系统性能提升的最重要因素之一,但是语料的标注和分析需要长期的积累和沉淀,随着大数据时代的来临,大规模语料资源的积累将提到战略高度。从Nuance向医疗领域发力看出,由于医疗领域词汇库专业性强演变性弱,只要建立完整的数据库,就可以做到对疾病名称、药品名称相对精确的识别。

如今国内也有了相应的应用如支持语音搜索功能的病历夹与珍立拍,致力于为医生提供一个安全存储病历资料的云空间,方便查找病例。而科大讯飞、云知声、盛大、捷通华声、中科信利、尚科语音、搜狗语音助手、紫冬口译、腾讯语音、百度语音等都日渐被用户习惯的系统,都采用了最新的语音识别技术,市面上其他相关的产品也直接或间接嵌入了类似的技术。

从打字到语音的习惯改变

随着语音识别在移动终端上的应用越来越火热,借助机器学习领域深度学习研究的发展,以及大数据语料的积累,语音识别技术得到突飞猛进的发展。

腾讯、百度都建立了自己的语音团队,在移动搜索领域发力 随着吴恩达加盟,担任首席科学家,负责百度研究院,百度看起来更加高大上了许多。吴恩达的研究领域就是机器学习和人工智能,研究重点是深度学习。深度学习被认为是当前的机器学习算法里最接近人脑思维的一种。在语音识别方面,会对互联网、家用电器带来很大的改革在百度Big Talk2015年第一期公开课上,吴恩达说,“语音会是改革互联网的很大一个因素。语音识别会推动物联网的革命,比如汽车界面、家用设备,以及可穿戴设备。在这方面,特别是在移动互联网方面,中国其实领先于美国和其他国家很多。”

今天国内的很多用户都会使用语音搜索,如年幼的用户、年龄大的用户,或文化程度不高的用户,对于他们来说,用语音搜索或许是可以让我们知道他们需求的唯一方式。因此,语音对话机器人、语音助手互动工具等层出不穷,许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用,目的是通过语音交互的新颖和便利模式迅速占领客户群。比如搜狗在移动搜索领域“发声”,推出“微信头条”功能宣称可以根据用户兴趣变化,来智慧地满足用户的差异化阅读需求。

第3篇:语音识别技术范文

一、简述移动电子商务存在的安全问题

无线通信网络在创造移动电子商务时,也带来一系列不安全的因素,例如黑客窃听、盗取信息、篡改用户信息等。同时,有关法律法规的不够完善也严重制约着移动电子商务的快速发展。

1.窃听用户信息

过去的电子商务中,入侵者可以运用有线网络,进一步实施有关的窃听工作,因此,极易判定入侵者的具置和信息。在无线网络环境下,进行追踪比较困难,因此在无线网络环境下,入侵者如果具备网卡或相关的无线设备从任何地点都能进入无线网络中。

2.黑客篡改用户信息

篡改用户信息的情况在无线电子商务中非常普遍,如果非法用户采用无线通信网络获取用户的交易信息,可以随意把篡改或删除信息发送出去,这会给用户带来很大的损失。黑客也可以截取用户的登陆名称或密码,从而窃取用户的合法账号。

二、语音识别技术在移动电子商务中的应用

1.创建安全模型

本文设计的安全模式,是以语音识别技术为基础,创建移动电子商务安全模型。该系统包含移动设备用户、语音服务提供商、移动电子商务企业三个部分组合而成。客户端输入的语音信息先让移动电子商务企业接收,随之传送至语音服务提供商进行处理。设计的模型主要表现在储存语音信息、进行语音识别、及时更新、传输安全四个方面,从而有效保障电子商务交易的安全运行。

2.安全模型的各项功能

(1)存储语音信息

在无线电子商务实际交易时,全部的语音信息会先存在移动电子商务企业的语音数据库内,移动电子商务企业把用户读入的信息转换为数字符号,存入专业的语音数据内并标明用户名称、时间等信息,从而更好的标识语音信息。移动电子商务企业把新增加的语音信息发送到语音服务提供商,由他们对这一段语音信息给予相应的处理,成功获取这段语音特征之后,自行把特征信息输送到移动电子商务企业的语音特征数据库内,并标明相对应的用户名称、时间等信息,随之进一步展开语音识别。从上述的分析可知,对用户输入的语音信号进行去噪、提取特征先是由语音服务提供商进程处理。语音服务提供商把语音信息传输给电子商务企业的语音特征数据库之后,电子商务企业系统会先对语音特征是否已经出现在数据库中,如果查询获知该用户名存在,表明数据库已经详细记录该用户的语音信息;随后把新录入的语音特征与上一次最新的语音特征展开比较。若两次语音特征一致,表明该语音顺利通过系统识别,证明用户的身份合法。同时,由于语音并不是独特或唯一的,进行语音识别时极易受到外界环境的干扰,对确定语音识别发生源非常困难。此时,可以使用相关技术在服务器端设置声呐装置,当用户进行语音识别验证过程中,凭借超声波判定发生源体积的大小。但该设备无法安装在客户端上,如果这样非法用户可以把客户端的声呐设备拆卸下来,从而致使发生源可信度降低。

(2)及时更新语音特征

移动电子商务企业不仅仅要接受输入的语音信息,同时要及时更新语音特征,从而提升语音识别的准确度。具体实施步骤如下:首先必须具备充足的历史信息才能有效总结新的规律。移动电子商务企业可以建立定时查看用户语音特征的系统,如果系统检测到语音特征数据库共出现30余条相同用户名的语音特征,系统会自动对语音特征展开比较,从而找寻其中的差别,最后获取新的语音特征。把新的语音特征作为21条语音特征输入语音特征数据库内,之后发送到相关企业数据库内。若看到某一用户名下语音特征多于20条,运用这一信息数除以20,如果得出的余数是0,在采用最新的20条信息按照上述的步骤进行处理。运用上述方法对语音特征进行更新。

(3)传输语音信息

由于无线网络具有开放性的特征,因此网络的通信安全极易受到威胁。不管是移动电子商务企业把语音信息传输出去,还是语音服务提供商对语音特征进行处理,把其传送给无线电子商务企业中,不可避免会遭受黑客的窃听和篡改,保护语音信息的安全性和完整性显得尤为重要。可以采用信息隐藏技术对语音信息进行加密操作,用来隐藏的载体可以是图像或者一段音乐。若使用图像,要先把图像转换为相对应的格式,随之把语音特征信息或语音信息转换为该格式,把信息的开头、结尾、内容信息标记后插入其中,保障图片信息不会改变。随后把图片和经过加密的信息标记格式一次发送给相关的企业或解码系统,解码系统在受到信息标记格式之后,把图片信息的语音特征读入相对应的数据库内。同时,解密系统可以依照标记的信息开头、结判定信息的完整性,有效阻止黑客窃听和篡改信息。

第4篇:语音识别技术范文

关键词:语音识别;CHMM模型;特征参数选择

中图分类号:TP391.4 文献标识码:A

1 引言

在语音识别的三大算法中CHMM算法的高识别率是以大计算量和大存储量为代价的,在基于嵌入式技术的语音识别系统或具有较强实时性要求的语音识别系统等特殊情况下,系统的资源和计算能力往往受到较大的限制,在保证一定识别率情况下减少识别算法对系统存储与计算资源的需求,具有重要意义。而语音识别系统的性能与系统所采用的特征参数密切相关,这就为我们利用特征参数的选取来实现系统识别性能与计算资源需求之间的折衷处理成为可能。目前,有很多文献做了各类特征参数对识别效果影响程度的研究工作,却没有讨论同一种类参数分量的问题;则通过对相邻分量的组合,用实验结果说明了MFCC分量的相对重要性,但他们都仅用实验结果加以说明,缺乏理论分析。

本文从CHMM模型的特点出发:一方面从理论上给出了选择特征参数的数学依据,另一方面提出根据特征参数对系统误识率的影响程度,选择特征参数的方法。

2 基于CHMM模型特征参数选择的理论分析

CHMM的Gauss概率密度函数的协方差矩阵本来应该是对称的满矩阵,为了降低对计算复杂度和存储量的要求,一般简化为对角矩阵。采用对角协方差阵使模型的参数减少,也有利于避免因训练样本不足而影响模型参数估计的可靠性。而且实验结果表明,概率密度函数的个数较多且取对角协方差阵的方案优于概率密度函数较少且取满元协方差阵的方案。所以,实际中一般使用具有对角协方差阵的Gauss概率密度函数。CHMM计算

的特征矢量。通常,人们使用MFCC+AMFCC或LPCC+ALPCC作为特征矢量,即将MFCC、AMFCC、LPCC、ALPCC作为整体来处理。需要注意的是MFCC和LPCC虽然分别有其完整的物理意义,即Mel刻度听觉参数的同态变换系数和声道参数,将他们的各个分量独立考虑会破坏其物理意义的完整性,但在基于对角协方差阵的CHMM的模型中,各个分量相互独立,从而使得我们可以根据各个分量的重要性来选择分量,构成特征矢量以减少计算量。另一方面,由于舍去的是对误识率影响较小的分量,所以系统的识别效果不会显著改变,从而充分有效的利用了特征矢量的区分特性。在减少计算量的同时,保证了识别率。

3 CHMM算法计算量与存储量的分析

3.1 MFCC、AMFCC求取

目前,在语音识别系统中,最常用就是具有较好抗噪性能的MFCC+AMFCC参数。其求取步骤为:1)对预处理后的每一帧语音信号先进行快速傅里叶变换以获得频谱分布信息2)然后将频域信号通过一组三角滤波器,中心频率在Mel刻度上均匀分布3)求出每个滤波器的输出对数能量4)对其进行离散余弦变换得MFCC5)对MFCC求差分得AMFCC

3.2 计算量与存储量的分析

设CHMM模型采用N个状态、M阶混合Gauss概率密度函数的Markov链;特征矢量维数为n;训练数据为l遍语音数据,为方便表示设每遍语音数据帧数为T,模型库容量为R。训练:①每次参数迭代前计算

数下降N*M*T*R*K次;模板库中Gauss概率密度函数参数个数减少N*M*R*2*K个。

4 实验及其结果分析

实验数据:6个女性发音,0~9十个数字,每个数字发音50次,其中30次用于建立CHMM模型;实验模型选择:采用六个状态的从左到右的无跨越的4阶混合Gauss概率密度函数的CHMM模型,端点检测方法选择经典的双门限方法。

实验Ⅰ 在MFCC+AMFCC中去掉某一分量找到对误识率影响较大的分量(见表1)。

实验Ⅱ 在MFCC+AMFCC中去掉对误识率影响小的分量,找到最佳(见表2)。

从实验结果可以看出,在CHMM模型上采用MFCC1、MFCC2、MFCC4、MFCC5、MFCC7、MFCC8、MFCC10、MFCC11、MFCCi(i≠11)组成19维的特征矢量,系统的误识率仅上升2.75%,即系统的识别率仍有95.75%,可以满足实际需要。而模板库参数个数下降2400个;同时在训练中N(U,σ2)的计算次数减少了41,834,880*K次(K为迭代次数);匹配时N(u,σ2)的计算次数减少1200*T次(T为待识语音帧数)。实验结果表明:与常规的24维MFCC+MFCC相比,选择其中对识别率贡献大的主要分量构成的低维特征矢量,系统在训练、识别过程中N(u,σ2)的计算次数和模板库参数个数明显下降,而系统误识率仅略微上升。

5 结论

第5篇:语音识别技术范文

关键词 数字识别;图像预处理;特征提取;神经网络

引言

目前,识别技术已经广泛地应用到了各个领域中。为了达到对一幅图像中的数字进行识别的目的,我们要对图像进行一些处理,这些处理工作的好坏直接决定了识别的质量,这些处理技术依次为图像的读取、对读取的图像进行灰度变换、按照量化指标对灰度变换后的图像进行二值化、然后对二值化后的图像中的字符信息进行切分等。在进行完上述预处理工作后进行特征提取,再输入到已经训练好的BP网络进行识别。

1 识别的流程

识别的流程按照引言中的步骤进行,主要分为两大部分,第一部分为图像的预处理、第二部分为通过神经网络进行印刷体数字的识别。预处理部分的流程:图像输入-灰度变换-图像二值化-紧缩重排-归一化调整-图像分割-特征提取。神经网络数字识别的具体流程:样本训练-字符特征输入-识别并给出结果。

2 基于神经网络的特征提取算法概述

图像在经过了前期的预处理后,由原来杂乱无章的字符变为了整齐排列的、大小相同的一列字符,在这里图像归一化后的宽度为8像素,高度为16像素,这样就大大方便了对字符特征的提取。我们把提取的特征存储在特征向量里,然后把特征向量输入到神经网络中,这样就可以对字符进行识别了。由以上的论述我们可以得出结论,特征提取的算法是整个识别过程的关键,它的好坏直接决定了识别的成败。对图像中的字符进行特征提取的算法有很多,下面对几种重要的分别进行介绍。

2.1骨架特征提取法

由于图像的来源不同,这就使得图像的线条所使用的像素不同,在图像上表现出来就是线条的粗细的不同,这样就使得它们的差别很大。如果我们将不同的图像统一到相同的像素水平,那么它们的差别也就不那么明显了。我们使用骨架特征提取算法,就会使得识别具有一定的适应广度和宽度。

2.2逐像素特征提取法

这种图像的特征提取算法是最为常用的方法,它的特点是能够保留图像中的全部特征信息,不过这种特征提取算法对图像的噪声较为敏感,对原始图像的质量要求较高,它采用逐行扫描的办法,对图像进行扫描,为整个图像建立一个以图像中的像素个数相同的特征向量矩阵。矩阵值为0或1,图像中的黑色像素记为1,白色像素记为0。

2.3垂直方向数据统计特征提取法

此算法是对逐像素提取算法的改进,他使得特征向量矩阵的维数降低,便于后期的识别。该算法首先对图像进行水平扫描,在这一过程中,统计没一列的黑色像素数,然后进行对图像进行垂直扫描,并记录每一行上的黑色像素数,对于一个字符宽度和长度为W和H的字符,他的特征向量的维数就为W+H。

2.4特征点提取法

这一特征提取算法首先对字符进行分割,利用实现设定的四条线将字符分为八个部分,分别统计每个部分中黑色像素的数目,可以得到八个特征。然后统计水平和垂直两个方向上,穿过四条线的黑色像素数,得到四个特征,最后将整个图像中黑色像素的数目作为一个特征,一共得到十三个特征。该方法具有很强的适应性,但是由于特征点较少,使得在样本的训练过程中很难收敛。

可以看出,识别算法各有特点,根据实践需要,本识别算法中的特征提取算法采用逐像素特征提取法。原因是这种算法的执行效率高,方法简单容易实现,且对于神经网络来说有很快的收敛性,具有较好的训练效果。

3 BP网络进行数字识别算法设计

BP网中中各层中的节点数是设计BP网络最基本的一点,对于神经网络的输入层而言,其节点数为经过图像预处理里后特征向量的维数。可以直接利用每个点的像素值作为特征,这里特征提取采用逐像素提取法,归一化后图像的宽度为8,高度为16,因此对于输入样本来说,每一个样本都会由128个特征,因此神经网络的输入层的特征数为128。

对于神经网络内部隐藏层的节点数来说,其节点数没有特别的规定,总的来说,隐藏层的神经元的数目与神经网络的精度成正比,与训练时间成反比。如果神经网络的神经元设置的过多,会对识别率造成较大影响,使得识别率大幅下降。因此在这里根据多年的实践经验在神经网络的隐藏层选取10神经单元。 对于输出层而言,要根据设定的输出标准来确定输入层的节点数。在本算法中采用8421的编码进行编码。对于0-9这十个数字,分别对应十个8421码,例如,0的8421码为(0,0,0,0),1的8421码为(0,0,0,1),依次类推,因此神经元的数目选定为4,就可以表示这十个数字,然而,因为神经元的激励函数(传输函数)是S型函数,期望输出只能是大于0小于1的数,而不能是1或者0,因此用0.1来代表0,0.9代表1,否则算法将不能收敛。

神经网络搭建好后,要对神经网络进行训练,也就是确定神经网络中各个参数的权值。本程序的训练样为图片。首先将图片进行预处理,然后提取特征,将特征值输入到神经网络中进行训练。在这里使用10个字符的图片进行训练,在图片里包含了ARIAL字体0-9十个数字。

通过50个相关训练样本进行训练后,BP网络对于数字字体的识别率能够达到百分之九十以上。训练好的神经网络就可以对数数据进行识别了。

4结论

本文以VC为平台,运用人工神经网络的思想(主要采用BP神经网络),实现了对印刷体数字识别。系统实现分为图像预处理和神经网络识别两大模块。首先,扫描进入电脑的图像需保存为256色位图或者是256级灰度图像。首先对图像进行预处理,然后进行特征提取,再输入BP网络进行识别。BP神经网络进行字符识别的过程主要包括网络的训练、数据的读取、字符的判定、结果的输出等。本系统通过对样本数据进行学习和训练,形成了具有良好识别能力的网络,对印刷体数字进行识别检测,达到了一定的准确度,满足了设计要求。

参考文献

第6篇:语音识别技术范文

【关键词】语音识别 音频文字自动提取

一、引言

由于计算机技术近年来发展非常迅速,使人们用语言与计算机进行通信与交流已成为可能,而起草文稿、撰写文章、准备教案、会议记录等都需要文字整理,对比传统的键盘和鼠标输入方式,语音识别技术在速度上要提高2~4倍。

从音频中自动提取文字是以语音识别系统为核心,对参考文本和对应语音进行强制对准的过程,其目的在于将音频信息转换为文本文字。作为语音识别领域中一种常见的预处理技术,音频文字自动提取广泛应用在政府机关、企事业单位的会议记录;网络文字直播;媒体采访速记;录像文字整理;广播电视媒体;录音文字整理;大量文字的录入排版、打印输出,计算机辅助语言教学等方面,此外,还可为现场直播的新闻、演讲、会议等生成字幕;为语言教学、游戏娱乐、电影制作等生成多媒体库;为歌曲制作同步的歌词显示等。

由此可见,音频中提取文字这项技术的用处很大,而目前能实现自动翻译的语音识别同生速记系统还正在研究之中。市场上要将录音转换成文字的方法就是找专业的速记公司,进行人工翻译,工作量大,效率慢,而且收费很高,一般每小时录音收费为200元左右。

二、背景及发展现状

语音识别技术的研究工作起始于20世纪50年代,贝尔实验室通过提取语音特征参数,第一个实现了可以识别10个英文数字的语音识别系统。20世纪80年代,人工神经网络技术引入语音识别,HMM模型和人工神经元网络ANN被成功应用,进入90年代后语音识别系统从实验室逐步走向实用。我国语音识别研究工作起步于20世纪80年代,从1987年开始执行国家863计划后,以清华大学电子工程系与中科院自动化研究所为代表的研究机构,得到了国家自然科学基金重大和重点项目等基金的支持,取得了丰硕的研究成果。目前市场上主要产品有北京阳宸电子技术公司的 VS-99 语音自动识别系统、科大讯飞的 InterVeri 系列等开发的语音自动识别系统等。

三、语音识别原理

自动语音识别技术(Auto Speech Recognize,简称ASR),在整个构建过程中包括两个阶段:训练阶段和识别阶段。在训练阶段,ASR系统进行语音收集,然后对收集的语音进行降噪处理,消除部分噪音和发音者的个性特点,为了使处理后的信号更清晰,可以将发音者语音中的词汇内容转换为数字格式,即计算机可读的输入,例如二进制编码,然后ASR系统将提取的每个语音单位的特征矢量进行一定的处理,然后存入到模板库中。

在模式匹配(即识别)过程中,ASR系统通过学习算法产生特征矢量,在识别时将输入语音的特征矢量与模板库征矢量相比较,找到最匹配的单词序列。目前最具有代表性的ASR技术有动态时间环绕技术、隐马尔科夫(markov)模型(HMM)和人工神经网(ANN)模型。其中基于HMM的技术最为流行且语音识别性能最好。

四、 音频文字自动提取的设计与实现

通常音频素材所占的容量都比较大,为了节省工作量,在使用素材之前,一般使用goldwave将音频素材分割成所需要的长度。再配合使用Windows 7系统中的语音识别功能,通过该功能,可以让我们彻底抛开鼠标和键盘,只用语音控制电脑,特别是配合word软件,还能实现文本的语音输入,识别的准确性也较高。为了使win7语音识别系统获得更清晰的语音素材,需要在播放音频素材的同时使用内录功能,文本软件会记录下提取到的音频文字内容,创建文本文档,也可在文档中进行修改或更正错误。

尽管win7系统可以实现音频文字的自动提取,由于环境噪声、使用者的语音差别等等因素,所以其最终识别率并不高。所以,我们还需要对win7语音识别系统进行模型训练。通过不断纠正其错误识别文字,在数据库中加入生僻名词,反复使用音频素材对模型进行训练,使语音识别系统最终能完全识别音频素材,以此来优化模型,提高语音系统的识别率。

五、总结和展望

如今计算机语音识别技术作为一股潜在的发展技术极大提高人们的现实生活需要,不仅转变了人们的生活方式,提高了工作效率,更加推动了社会的进步和文明的发展,所以从音频中自动提取文字具有广阔的应用前景,由于语音自动识别的局限性,使得这项技术任重而道远,。

在今后的科研中,音频中自动提取文字将被更加广泛的应用,各种具有音频自动提取文字的产品也将渐渐在市场上出现,随着计算机信息技术的不断发展创新,语音识别系统将会引领我们的信息技术革命到一个新的台阶。

第7篇:语音识别技术范文

关键词:单片机;LD3320语音识别模块;智能家居;声控系统

中图分类号:TN912.34 文献标识码:A 文章编号:2095-1302(2016)11-00-03

0 引 言

智能家居(smart home)的概念很早就被提出来,但是一直没有在现实中被具体实践,直到1984年出现的首栋智能型建筑拉开了全人类争相构建智能家居的帷幕。智能家居不是某一项家庭电器的智能化,而是以住宅为平台,为实现家居安全舒适、科学环保、健康节能的家居生活环境,依赖综合布线和网络通信技术,将家电设备联系起来,构建高效、流畅的家居设备管理系统,方便人们对家用设备进行操作与管理,为人类提供智能、舒适的生活方式。

1 语音识别的发展历史及应用领域

从工业革命开始,人类逐渐受益于高速的机器生产,但随着科技的发展,人类开始梦想着与机器进行交流沟通,让机器明白人类的命令,然后给予回应,真正实现用机器代替人类进行繁重劳动的目标。语音识别技术为该目标的实现提供了可能,该技术将其接收到的音频信号转换为机器可识别的文本或命令后进行进一步处理。现如今,经历半个多世纪的探索与创新,语音识别技术在各领域都实现了应用,小到儿童玩具、个人家庭电器、电子产品,大到医疗、工业生产等,语音识别系统都发挥着不可替代的作用。从世界上第一个能识别10个英文数字发音的语音识别系统到如今广泛应用在各行各业的语音识别系统,我们希望语音识别技术在未来取得更大的发展。

语音识别技术的发展离不开研究者们的卓越贡献,由一开始特定人、小词汇的识别到如今非特定人、连续发音、大量词汇的识别,这其中各种技术的更新发展必不可少。广泛使用的计算机网络和普遍使用的手机、ipad等提供了大量文本和语音方面的材料资源,多渠道的资源为语音识别中的语言模型和声学模型的训练提供了有力支持。语音识别的未来发展令人期待。

2 智能家居声控系统的方案设计

2.1 系统总体结构图

图1所示为系统总体设计结构框图。该系统的硬件部分包括电源、LD3320芯片、单片机、继电器等。语音识别由LD3320芯片实现,系统整体控制由MCS-51单片机实现,包括对LD3320芯片的初始化等。用户语音指令经麦克风送给LD3320语音识别模块,LD3320识别处理后,把识别结果传送给单片机,单片机将根据识别结果对外设进行相应控制。若语音指令无法识别,则由单片机控制LD3320语音模块重新进入新的识别处理过程。

2.2 LD3320语音识别模块

LD3320芯片是一个专用于语音识别的芯片,该芯片在设计时注重高效与节能,无需外接任何辅助芯片,直接集成了语音识别处理模块和外部电路,如麦克风接口、语音输出接口、AD/DA转换器等,使其可以实现语音识别、声音控制及人机对话等功能。

2.2.1 主要特征

完成非特定人的语音识别命令。在语音识别技术发展之初,只能由特定的人进行语音命令来完成任务,且需要录音和练习等,而现在只需用户使用相同的语言就可以进行识别,且识别效率大大提高,识别率高达95%,无需外接辅助,实现了单芯片语音识别。

由于用户的语音命令有多种可能,如意思相同但语音命令不同或受到口音语气的影响等,LD3320芯片中的识别语句是动态可编辑,可修改的,在设计时可根据具体情况考虑多种可能,如设置50条识别语句留作用户语音命令的候选语音,以提高系统的整体水平。不过设置时需注意识别语句的长度,如果设置汉字则不能超过10个,设置拼音串则不能超过79个。支持串行接口和并行接口,也可设置为休眠状态,方便激活。

2.2.2 LD3320语音口令识别处理过程

LD3320芯片的语音口令识别处理过程如图2所示。

2.2.3 LD3320语音识别模块使用技巧

在一些特别的应用场合,人们希望语音识别系统具有较高的识别精度。本系统设计采用“用户口令触发模式”以提高抗干扰能力,避免单片机对外设控制时产生错误动作。

程序设计中设置一个短句作为用户命令的触发口令。如定义“小明”作为用户的触发口令。在等待用户触发时,特别是有杂音、噪音的情况下,系统将启动 “循环识别处理”模式,把触发口令“小明”和其他几十个用来吸收错误的词汇设置进LD3320语音识别芯片。如果LD3320芯片中程序检测到用户的触发口令时,则开启“触发模式”,用户给出一级口令,若检测为正确口令,则芯片将给出指示,即提示灯开始闪烁(大约2 s)后,开启二级口令的接收检测即“识别模式”,LD3320识别到预设的二级口令后,如卧室开灯、卧室关灯等,将识别结果送给单片机,由单片机对外设进行控制。在等待口令时,可能会进行误识别,即在其他声音干扰下接收到相似的语音片段,程序可以专门对垃圾词语进行处理或不处理,然后进入循环识别状态,用户只需发出新的口令即可触发。通过二级口令触发模式,用户可以更加方便的进行语音操作,且准确率较高。

2.2.3.1 巧妙运用关键词语的ID,提高识别效率

由于用户的发音习惯不同,可能同一个意思的不同语音命令无法被准确执行。我们将语音命令的关键词语的拼音串设计在LD3320芯片内,例如一级口令“小明”,然后传入一个ID代表这个词语,一旦识别成功后,将这个ID作为识别的结果对外输出。在 LD3320语音芯片中,同一个ID可以对应不同的关键词汇,而且ID不需要连续,编程方式非常简单。例如“中国”“华夏”,可以设置为同一个ID,之后再进行其他处理步骤。

2.2.3.2 对于关键词ID设置多个可能发音,充分利用50项候选可识别语句

有时用户可能不会用同一个词来发出命令,例如“开灯”,用户可能会说“开大灯”“打开灯”“打开电灯”“把电灯打开”等,其说话的口音、语气、情绪、习惯是不同的。因此需把用户的这些发音习惯都考虑到程序设计中,完全利用LD3320芯片的特性,充分利用50条可动态编辑的关键识别条目,编辑不同的候选语句并设置到芯片中。这样用户在发出命令后,被准确执行的效率增加,完善了系统的功能。

2.2.3.3 用户通过语音命令后得到语音识别结果的等待时间调节

在本系统中,用户发出口令后芯片大约有12 s的反应时间,然后才会给出识别反应。通过语音识别芯片的检测机制来判断用户的口令是否全部发出,如监测出一段连续的噪音,就认为用户口令已发完,之后给出识别结果。

2.2.4 使用过程中应注意的问题

在测试过程中发现,LD3320模块应用时要注意以下问题:

(1)用户使用时背景声音(噪音、杂音等)会造成一定的干扰;

(2)设置语音模块内识别列表的内容和50个可编辑的候选语句有关;

(3)设置识别列表中各词汇之间的相似程度;

(4)用户的发音快慢、大小、口音以及发音是否清晰等;

(5)距离麦克风的位置远近以及接收语音的外设(麦克风等)质量等。

3 智能家居声控系统的软件程序设计

智能家居声控系统的程序处理过程主要包括单片机初始化;LD3320芯片的初始化;LD3320语音识别结果寄存器的读取以及单片机对外设的控制等。

3.1 具体软件功能模块介绍

(1)单片机初始化函数:void MCU_init()

名称:void MCU_init()。

功能:单片机初始化。

(2)中断处理函数:void ExtInt0Handler(void) interrupt 0

名称:中断处理函数。

功能:对LD3320的中断请求进行处理。

其他说明:语音识别模块接收到音频信号后进入函数,判断识别结果,若无结果则设置寄存器开始下次识别。

(3)用户执行函数:void User_handle(uint8 dat)

名称:用户执行函数。

功能:识别结果成功后,MUC进行之后的处理。

(4)LD3320复位函数:void LD_Reset()

功能描述:复位LD模块。

(5)LD3320初始化函数:void LD_Init_Common()

功能描述:LD模块命令初始化。

其他说明:该函数一般不需要修改。

(6)LD3320ASR功能初始化函数:void LD_Init_ASR()

功能描述:LD模块ASR功能初始化。

其他说明:该函数一般不需要修改。

(7)运行ASR识别处理函数uint8 RunASR(void)

功能描述:运行ASR识别流程。

返回值:asrflag:1->启动成功;0->启动失败。

其他说明:识别顺序如下:

① RunASR()函数实现一次完整的ASR语音识别流程;

② LD_AsrStart()函数实现了ASR初始化;

③ LD_AsrAddFixed()函数添加关键词语到LD3320中;

④ LD_AsrRun()函数启动一次ASR语音识别流程。

任何一次ASR识别流程均从初始化开始,皆按照此顺序进行。

(8)语音命令添加函数:uint8 LD_AsrAddFixed()

功能描述:向LD模块添加关键词。

返回值:flag:1->添加成功。

(9)识别结果获取函数:uint8 LD_GetResult()

功能描述:获取识别结果。

返回值:LD_ReadReg(0xc5 ),读取内部寄存器返回的识别码。

3.2 系统程序流程图

声控系统单片机程序流程图如图3所示。

4 系统测试

本系统以“小明”为一级指令口令,每次识别时必须先触发一级口令,才能进行二级口令,如卧室关灯、卧室开灯、客厅开灯、客厅关灯等。

系统加入电源后对麦克风说“小明”一级口令,指示灯闪烁亮灯后,再对着麦克风说:“卧室开灯”二级口令则继电器控制卧室灯亮。目前该系统能识别的二级口令有5个,分别是“客厅开灯”“客厅关灯”“卧室开灯”“卧室关灯”和“close all”,实际可以根据具体布置需要增加控制节点及相应识别口令。

5 结 语

智能家居声控系统不仅能为大家带来舒适的居住环境,还具有系统可靠性高,误识率低,方便适用的特点,具有广大的应用前景。

参考文献

[1]王炳锡.实用语音识别基础――21世纪高等院校技术优秀教材[M].北京:国防工业出版社,2015.

[2]谭浩强.C程序设计教程[M].北京:清华大学出版社,2007.

[3]金鑫,田,阙大顺.基于LD3320的语音控制系统设计实现[J].电脑与信息技术,2011,19(6):22-25.

[4]徐波.语音识别技术发展现状与展望[Z].中科院自动化研究所,2011.

第8篇:语音识别技术范文

转机

让计算机能够识别人类的语音,从而使得人们能够用自己的母语与计算机进行人机交互,一直是计算机学科追求的目标之一。谈到语音识别,就不能不谈一下李开复。

1983年秋,李开复进入卡内基·梅隆大学,师从罗杰·瑞迪教授,攻读博士学位。瑞迪建议李开复选择不特定语者的语音识别系统作为研究方向,并建议采用专家系统的方法,来解决让电脑听懂每个人说的话的难题。瑞迪是人工智能领域的权威,后来还获得1994年图灵奖。经过近1年的研究,尽管研究有了一些进展,但李开复最终认识到,受技术发展的限制,专家系统相当长时间内难以解决这一难题。在一位同门师兄的提醒下,李开复转而采用统计模型的研究路径,终获成功。1988年,李开复获得博士学位。时至今日,语音识别技术依旧采用的是李开复开创的统计模型。

1998年,IBM中文语音识别技术Via Voice在国内PC市场掀起了一场中文语音输入热潮。第二年,当今国内最大的智能语音识别公司科大讯飞诞生于中国科技大学。

同年,出任微软中国研究院院长的李开复曾告诉媒体,语音识别需要的计算资源太多,实用化还要走很长的路。

“中文语音识别市场在2000年左右逐渐由热变冷,这主要是由于当时算法还比较初级,对计算资源的需求很大,产业环境也不成熟。于是,很多人转去做别的行业。也正是在这个时候,我们团队的主要成员初涉这个领域,进入研究所和高校读博读硕。”梁家恩就在那个时期考入中科院自动化所模式识别国家重点实验室。模式识别实验室分为图像识别和语音识别两大研究方向,图像识别领域诞生了汉王公司,而梁家恩则在语音识别领域历经5年寒窗,完成了硕博连读。

梁家恩介绍说:“我们这些人一直专注于语音识别和语义理解的研究。到了2010年左右,语音识别技术取得了突破性进展,移动互联网也得到普及。加之2011年10月苹果iPhone 4S,作为新产品一大亮点的智能语音助手Siri在市场上再次引爆语音识别热。我们觉得商业化的机会已经成熟,2012年6月,我们创建了云知声,并搭建了用于语音识别的公有云平台。”

突破

虽然现在的语音识别还是采用统计算法,但这十多年来,语音识别技术发展很快。

“首先是数据资源丰富了,以前在实验室收集几百个人的语音都非常困难,现在我们有了语音云平台,吸引了各地不同口音的人们,每天采集上百GB的数据量,样本非常丰富,这有利于分析和改进我们的系统。现在的样本规模比李开复老师当时做的系统的样本规模扩大了几个数量级,而且现在的数据都是真实数据,远非那时模拟数据所能比拟,这在统计算法中至关重要。”梁家恩表示。

“二是统计技术和神经网络学习等关键技术取得较大的突破,在环境噪声处理和对口音识别方面的改进非常明显,识别率显著提升。算法上也做了一些优化,以前的算法你要做一系列实验可能需要一两年的时间,根本没法实现。”梁家辉说,“再有就是智能手机中CPU技术的进步以及GPU的应用,加之后台云计算处理能力的提升,为智能语音识别提供了强大的计算资源。”

语音识别实际上是搜索。梁家恩介绍说,语音识别就是从一句话的声波中提取语音特征,然后与后台数据进行匹配,由于现在的数据库非常大,因此比对的精确度比过去要高得多。虽说都是搜索,但百度搜索是文本检索,它要求捕获全网信息的变化,即信息更新要快。而语音识别上,因为语音特征与文本并没有对应关系,因此,比对精确度就成为语音识别的核心技术所在。

由于面向语音识别这一特定应用,云知声的公有云平台与通用的云平台也有所区别。“我们底层采用的也是集群架构,单台服务器并发线程数达到100,这已是业界最快的;再通过灾备、安全等技术来确保平台的稳健;然后是将目前已经建立的北京、上海和广州机房的计算资源联在一起。我们也对虚拟化做了测试,但虚拟化会带来5%~10%的性能损失,这与我们追求性能最高化的目标不符合。因此,我们采用高性能计算平台,让硬件对语音识别这一特定应用进行优化。”

互联网思维

伴随着智能手机和平板电脑取代PC成为个人计算市场的主流,人机交互也从传统的键盘操作转换为触屏操作。而在注重用户体验的移动互联网时代,智能语音识别将带来更快更方便的用户体验,特别是在车载、可穿戴式电脑等应用上。

梁家恩认为,作为自然高效的交互方式,智能语音技术不仅要识别用户的话语,而且还要能够智能地通过屏幕或者TTS(从文本到语音)的方式实现与用户交流,因而在智能移动设备、广播电视、呼叫中心、会议记录、语言学习、知识学习、互动娱乐等领域有着广阔的应用前景。

“我想查一下今天晚上北京飞上海的航班。”在采访过程中梁家恩对着手机说,话音刚落,手机屏幕上刷新出北京至上海的航班信息。

这个简单的演示可以直白地反映出云知声的商业模式。由于智能手机与机主的对应关系,加之其定位和支付功能,这句话已经包含了这一具有在线支付手同的潜在顾客是谁、在什么地方、具体需求是什么。这对于商家而言,客户信息已经足够了,商家甚至还可以通过手机号码来关联客户的信用、过往的消费习惯等,从而做出精准的营销响应。

“我们不像现在市场有的语音识别公司那样,通过软件授权的方式向用户收费。我们相信互联网的力量,所有语音用户需求汇总到后台后,所蕴含的商业价值要远远大于软件授权带来的价值。”梁家恩说,“我们承诺将公有云平台服务的体验做到极致并且永远免费,同时云知声的智能语音技术向合作伙伴完全开放,即不限领域、不限形态、不限商业模式。当后台数据的商业价值变现时,我们将与合作伙伴分成。”

第9篇:语音识别技术范文

关键词:语音识别;孤立词;动态时间规整;朝鲜语

中图分类号:TP319文献标识码:A文章编号文章编号:16727800(2013)0010010304

作者简介:王晓丹(1981-),女,硕士,延边大学工学院讲师,研究方向为语音识别、模式识别;金国哲(1983-),男,硕士,延边大学工学院讲师,研究方向为游戏软件。

0引言

语音识别是让机器自动识别和理解语音信号,并把语音信号转化为相应的文本或命令的技术[1]。语音识别技术的解决将不仅使计算机成为普通百姓得心应手的工具,而且对于许多机器的操作、生产过程的控制,还有通信、口语机器翻译等领域来说,语音识别都大有用武之地[2]。目前,信息产业发展迅速,方便、快捷、高效的电子产品越来越受到用户的青睐。语音识别作为人机交互的一项关键技术,具备了这样的特点,特别在一些特定的环境或是对于一些特定的人,语音识别可以带来很大的方便。语音识别系统实际上属于一种模式识别系统,它包括特征提取、模式匹配、参考模式库等基本单元,其原理如图1所示。

输入的模拟语音信号首先进行预处理,包括预加重、分帧处理、数模转换、自动增益控制等过程。为了从每一个词条中提取出随时间变化的语音特征序列,作为一个模型保存为参考模板,就要对预处理后的语音信号进行特征参数提取。待识别的语音信号同样经过特征参数提取后生成测试模板。对语音的识别过程即是将测试模板与参考模板进行匹配的过程,识别结果即是相似率最高的一个参考模板。对于输入信号计算测定,再根据若干准则和专家知识,来判决选出最终结果并由识别系统输出。语音识别系统设计要考虑服务对象、词表大小、工作环境、发音方式、任务性质等许多因素,不同的应用需要采用不同的方法实现,才能达到理想的效果[3]。本文所采用的朝鲜语紧急呼叫号码的语音识别系统采用后文所述的几个步骤和方法。

1预处理

本设计中对语音信号的预处理过程包括预加重、分帧处理及窗化处理。

1.1语音信号的预加重

采用预加重方法处理语音信号能补偿语音信号的固有衰落,而且能有效地消除唇辐射的影响[4]。该方法的传递函数为:H(z)=1-0.94z-1(1)

设S(n)为输入的语音信号,经过预加重后得到的信号为:

中找出语音的开始和终止点。确定语音信号的起止点能更好地对语音信号进行识别,从而提高系统识别率和获取到更好的语音特征参数。端点检测的常用方法有短时过零率、短时平均能量、基于熵的特征、短时频域处理等几种[6]。本文中端点检测部分选择短时平均能量和短时过零率相结合的方法。清音的过零率要高于浊音和静音部分,因此短时过零率可用于确定清音。而浊音和清音的时域能量要高于静音部分,所以短时时域平均能量可用于确定浊音。在进行语音检测时,首先找出哪一帧语音的能量超过能量门限,然后往前根据过零率确定语音的起点,同样方法可确定语音的终点。

2特征提取如何选择语音特征直接关系到最终的识别效果。每段语音经过特征提取后具有了各自的特征值,特征间的距离量度反映出语音间的相似度。因此特征选择的标准应使得异音字特征间的距离尽量大,同音字间的距离尽量小。同时,在保持高识别率的情况下,还应尽量减少特征维数,以减小特征参数的计算量。人耳对200Hz到5kHz之间的语音信号最为敏感,高音不容易掩蔽低音,反之则较容易,高频处的声音掩蔽的临界带宽较低频端小。因此本文的朝鲜语孤立词语音识别系统首先采用在Mel频率轴上均匀分布的三角形滤波器,设

图3语音识别仿真过程

Step3:对分帧处理后的每帧信号求MFCC系数。Step4:通过DTW算法求出测试模板与参考模板的特征参数,选择差值最小的作为输出结果。语音控制器选用“Cool Edit Pro V2.1”进行录音采样。Cool Edit Pro 是美国 Adobe Systems 公司开发的一款功能强大、效果出色的多轨录音和音频处理软件。该软件可提供多种特效为作品增色,如压缩、扩展、延迟、降噪、回声、失真等。并且可同时在几个文件中进行剪切、粘贴、合并、重叠声音的操作,还可以生成静音、噪音、低音、电话信号等。本文采样率为8 000Hz,声道为单声道,采样精度为16位。语音库需要对朝鲜语的“”、“”、“”、“”、“”这几个词进行录音采样。采集到的音频信号,经过Matlab提供的wav文件读写函数,以及声卡的录音和放音函数,可以实现某些语音信号处理工作。语音工具箱voicebox为实现语音识别提供了许多实用函数。本语音识别系统的文件包含15个模板语音文件,25个语音库文件和5个处理函数。

以下分别就5种韩国紧急电话号码进行了识别实验,并对结果进行了部分截图,实验结果包含模板波形图和测试结果。第一组是天气预报电话号码131;第二组是报警电话号码112;第三组是火警电话号码119;第四组是电话咨询号码114;第五组是海洋咨询电话号码。如图4和图5是分别对韩国火警电话119的采样后的语音波形图和识别结果。

通过对特定人朝鲜语呼叫号码的语音识别结果的分析,可以得出以下结论:①在语音库样本数量足够,相关被测人数适当的情况下,DTW算法能够有效地识别语音控制指令;②识别效果与测试内容紧密相关,对于、这类数字,该算法完全可以准确识别出结果;③对

于有连读发音的号码、、等,由于个人发音特点的差异,该算法会偶尔出现识别错误的现象,但错误率在6%以下。

5结语

本文实现了朝鲜语紧急呼叫号码语音识别系统的软件算法部分。其过程主要包括:语音预加重处理、短时能量和过零率两级端点检测算法进行端点检测、MFCC算法进行语音特征参数提取等。综合考虑环境、算法复杂度等因素,DTW算法能够既简单又有效地识别朝鲜语紧急呼叫号码。通过MATLAB仿真实验,验证了该算法识别朝鲜语词汇的准确率较高。出错的主要原因有:①静音部分过长和无静音时的差别;②朝鲜语发音规则决定个人发音特点的差异较大。这些问题都有待进一步研究。

参考文献:

[1]MOKBEL, CHAFIC E,CHOLLET,et al.Automatic word recognition in cars[J].IEEE Transactions on Speech and Audio Processing,2005:346356.

[2]陈尚勤.近代语音识别[M].成都:电子科技大学出版社,1991.

[3]高宏涛,张德贤.语音识别技术研究及实现[J].光盘技术,2007,(3):2428.