期刊大全 杂志订阅 SCI期刊 投稿指导 期刊服务 文秘服务 出版社 登录/注册 购物车(0)

首页 > 精品范文 > 语音识别技术

语音识别技术精品(七篇)

时间:2023-03-17 18:04:01

序论:写作是一种深度的自我表达。它要求我们深入探索自己的思想和情感,挖掘那些隐藏在内心深处的真相,好投稿为您带来了七篇语音识别技术范文,愿它们成为您写作过程中的灵感催化剂,助力您的创作。

语音识别技术

篇(1)

关键词: 语音识别; 识别原理; 声学建模方法; 多维模式识别系统

中图分类号: TN912.3?34 文献标识码: A 文章编号: 1004?373X(2013)13?0043?03

Summary of speech recognition technology and its application

YU Lin?lin

(Naval Aviation Military Representative Office Stationed in Beijing, Beijing 100041, China)

Abstract: As a key technology of human?computer interface in information technology, speech recognition has great research significance and broad application value. the development history of speech recognition technology is introduced, the basic knowledge of speech recognition is expounded, such as concept, basic principle, the acoustic modeling approach. The application of speech recognition technology in various fields are briefly introduced.

Keywords: speech recognition; recognition principle; acoustic modeling approach; multi?dimension pattern recognition system

0 引 言

语言是人类相互交流最常用、最有效、最重要和最方便的通信形式,语音是语言的声学表现,与机器进行语音交流是人类一直以来的梦想。随着计算机技术的飞速发展,语音识别技术也取得突破性的成就,人与机器用自然语言进行对话的梦想逐步接近实现。语音识别技术的应用范围极为广泛,不仅涉及到日常生活的方方面面,在军事领域也发挥着极其重要的作用。它是信息社会朝着智能化和自动化发展的关键技术,使人们对信息的处理和获取更加便捷,从而提高人们的工作效率。

1 语音识别技术的发展

语音识别技术起始于20世纪50年代。这一时期,语音识别的研究主要集中在对元音、辅音、数字以及孤立词的识别。

20世纪60年代,语音识别研究取得实质性进展。线性预测分析和动态规划的提出较好地解决了语音信号模型的产生和语音信号不等长两个问题,并通过语音信号的线性预测编码,有效地解决了语音信号的特征提取。

20世纪70年代,语音识别技术取得突破性进展。基于动态规划的动态时间规整(Dynamic Time Warping, DTW)技术基本成熟,特别提出了矢量量化(Vector Quantization,VQ)和隐马尔可夫模型(Hidden Markov Model,HMM)理论[1]。

20世纪80年代,语音识别任务开始从孤立词、连接词的识别转向大词汇量、非特定人、连续语音的识别,识别算法也从传统的基于标准模板匹配的方法转向基于统计模型的方法。在声学模型方面,由于HMM能够很好的描述语音时变性和平稳性,开始被广泛应用于大词汇量连续语音识别(Large Vocabulary Continous Speech Recognition, LVCSR)的声学建模[2?3];在语言模型方面,以N元文法为代表的统计语言模型开始广泛应用于语音识别系统[4]。在这一阶段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神经网络的语音建模方法开始广泛应用于LVCSR系统,语音识别技术取得新突破。

20世纪90年代以后,伴随着语音识别系统走向实用化,语音识别在细化模型的设计、参数提取和优化、系统的自适应方面取得较大进展[5]。同时,人们更多地关注话者自适应、听觉模型、快速搜索识别算法以及进一步的语言模型的研究等课题[6]。此外,语音识别技术开始与其他领域相关技术进行结合,以提高识别的准确率,便于实现语音识别技术的产品化。

2 语音识别基础

2.1 语音识别概念

语音识别是将人类的声音信号转化为文字或者指令的过程[7]。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支。语音识别的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域,是一个多学科综合性研究领域[8]。

根据在不同限制条件下的研究任务,产生了不同的研究领域。这些领域包括:根据对说话人说话方式的要求,可分为孤立字(词)、连接词和连续语音识别系统;根据对说话人的依赖程度,可分为特定人和非特定人语音识别系统;根据词汇量的大小,可分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。

2.2 语音识别基本原理

从语音识别模型的角度讲,主流的语音识别系统理论是建立在统计模式识别基础之上的。语音识别的目标是利用语音学与语言学信息,把输入的语音特征向量序列[X=x1,x2,…,xT]转化成词序列[W=w1,w2,…,wN]并输出。基于最大后验概率的语音识别模型如下式所示:

[W=argmaxW{P(W|X)}=argmaxWP(W|X)P(W)P(X)=argmaxW{P(X|W)P(W)}=argmaxW{logP(X|W)+λlogP(W)}]

上式表明,要寻找的最可能的词序列[W],应该使[P(X|W)]与[P(W)]的乘积达到最大。其中,[P(X|W)]是特征矢量序列[X]在给定[W]条件下的条件概率,由声学模型决定。[P(W)]是[W]独立于语音特征矢量的先验概率,由语言模型决定。由于将概率取对数不影响[W]的选取,第四个等式成立。[logP(X|W)]与[logP(W)]分别表示声学得分与语言得分,且分别通过声学模型与语言模型计算得到。[λ]是平衡声学模型与语言模型的权重。从语音识别系统构成的角度讲,一个完整的语音识别系统包括特征提取、声学模型、语言模型、搜索算法等模块。语音识别系统本质上是一种多维模式识别系统,对于不同的语音识别系统,人们所采用的具体识别方法及技术不同,但其基本原理都是相同的,即将采集到的语音信号送到特征提取模块处理,将所得到的语音特征参数送入模型库模块,由声音模式匹配模块根据模型库对该段语音进行识别,最后得出识别结果[9]。

语音识别系统基本原理框图如图1所示,其中:预处理模块滤除原始语音信号中的次要信息及背景噪音等,包括抗混叠滤波、预加重、模/数转换、自动增益控制等处理过程,将语音信号数字化;特征提取模块对语音的声学参数进行分析后提取出语音特征参数,形成特征矢量序列。语音识别系统常用的特征参数有短时平均幅度、短时平均能量、线性预测编码系数、短时频谱等。特征提取和选择是构建系统的关键,对识别效果极为重要。

图1 语音识别基本原理框图

由于语音信号本质上属于非平稳信号,目前对语音信号的分析是建立在短时平稳性假设之上的。在对语音信号作短时平稳假设后,通过对语音信号进行加窗,实现短时语音片段上的特征提取。这些短时片段被称为帧,以帧为单位的特征序列构成语音识别系统的输入。由于梅尔倒谱系数及感知线性预测系数能够从人耳听觉特性的角度准确刻画语音信号,已经成为目前主流的语音特征。为补偿帧间独立性假设,人们在使用梅尔倒谱系数及感知线性预测系数时,通常加上它们的一阶、二阶差分,以引入信号特征的动态特征。

声学模型是语音识别系统中最为重要的部分之一。声学建模涉及建模单元选取、模型状态聚类、模型参数估计等很多方面。在目前的LVCSR系统中,普遍采用上下文相关的模型作为基本建模单元,以刻画连续语音的协同发音现象。在考虑了语境的影响后,声学模型的数量急剧增加,LVCSR系统通常采用状态聚类的方法压缩声学参数的数量,以简化模型的训练。在训练过程中,系统对若干次训练语音进行预处理,并通过特征提取得到特征矢量序列,然后由特征建模模块建立训练语音的参考模式库。

搜索是在指定的空间当中,按照一定的优化准则,寻找最优词序列的过程。搜索的本质是问题求解,广泛应用于语音识别、机器翻译等人工智能和模式识别的各个领域。它通过利用已掌握的知识(声学知识、语音学知识、词典知识、语言模型知识等),在状态(从高层至底层依次为词、声学模型、HMM状态)空间中找到最优的状态序列。最终的词序列是对输入的语音信号在一定准则下的一个最优描述。在识别阶段,将输入语音的特征矢量参数同训练得到的参考模板库中的模式进行相似性度量比较,将相似度最高的模式所属的类别作为识别中间候选结果输出。为了提高识别的正确率,在后处理模块中对上述得到的候选识别结果继续处理,包括通过Lattice重打分融合更高元的语言模型、通过置信度度量得到识别结果的可靠程度等。最终通过增加约束,得到更可靠的识别结果。

2.3 声学建模方法

常用的声学建模方法包含以下三种:基于模式匹配的动态时间规整法(DTW);隐马尔可夫模型法(HMM);基于人工神经网络识别法(ANN)等。

DTW 是较早的一种模式匹配的方法。它基于动态规划的思想,解决孤立词语音识别中的语音信号特征参数序列比较时长度不一的模板匹配问题。在实际应用中,DTW通过计算已预处理和分帧的语音信号与参考模板之间的相似度,再按照某种距离测度计算出模板间的相似度并选择最佳路径。

HMM是对语音信号的时间序列结构所建立的统计模型,是在马尔可夫链的基础上发展起来的,它是一种基于参数模型的统计识别方法。HMM可模仿人的言语过程,可视作一个双重随机过程:一个是用具有有限状态数的马尔可夫链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与马尔可夫链的每一个状态相关联的观测序列的随机过程[10]。

ANN以数学模型模拟神经元活动,将人工神经网络中大量神经元并行分布运算的原理、高效的学习算法以及对人的认知系统的模仿能力充分运用到语音识别领域,并结合神经网络和隐含马尔可夫模型的识别算法,克服了ANN在描述语音信号时间动态特性方面的缺点,进一步提高了语音识别的鲁棒性和准确率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估计音素或状态的后验概率。2011年,微软以深度神经网络替代多层感知机形成的混合模型系统大大提高了语音识别的准确率。

3 语音识别的应用

语音识别技术有着非常广泛的应用领域和市场前景。在语音输入控制系统中,它使得人们可以甩掉键盘,通过识别语音中的要求、请求、命令或询问来作出正确的响应,这样既可以克服人工键盘输入速度慢,极易出差错的缺点,又有利于缩短系统的反应时间,使人机交流变得简便易行,比如用于声控语音拨号系统、声控智能玩具、智能家电等领域。在智能对话查询系统中,人们通过语音命令,可以方便地从远端的数据库系统中查询与提取有关信息,享受自然、友好的数据库检索服务,例如信息网络查询、医疗服务、银行服务等。语音识别技术还可以应用于自动口语翻译,即通过将口语识别技术、机器翻译技术、语音合成技术等相结合,可将一种语言的语音输入翻译为另一种语言的语音输出,实现跨语言交流[11]。

语音识别技术在军事斗争领域里也有着极为重要的应用价值和极其广阔的应用空间。一些语音识别技术就是着眼于军事活动而研发,并在军事领域首先应用、首获成效的,军事应用对语音识别系统的识别精度、响应时间、恶劣环境下的顽健性都提出了更高的要求。目前,语音识别技术已在军事指挥和控制自动化方面得以应用。比如,将语音识别技术应用于航空飞行控制,可快速提高作战效率和减轻飞行员的工作负担,飞行员利用语音输入来代替传统的手动操作和控制各种开关和设备,以及重新改编或排列显示器上的显示信息等,可使飞行员把时间和精力集中于对攻击目标的判断和完成其他操作上来,以便更快获得信息来发挥战术优势。

4 结 语

语音识别的研究工作对于信息化社会的发展,人们生活水平的提高等方面有着深远的意义。随着计算机信息技术的不断发展,语音识别技术将取得更多重大突破,语音识别系统的研究将会更加深入,有着更加广阔的发展空间。

参考文献

[1] 马志欣,王宏,李鑫.语音识别技术综述[J].昌吉学院学报,2006(3):93?97.

[2] RABINER L R, JUANG B H. An introduction to hidden Markov models [J]. IEEE ASSP Magazine, 1986, 3(1): 4?16.

[3] GALES M, YOUNG S. The application of hidden Markov models in speech recognition [J]. Foundations and Trends in Signal Processing, 2008, 1(3): 195?304.

[4] JELINEK F. Continuous speech recognition by statistical methods [J]. Proceedings of the IEEE, 1976, 64(4): 532?556.

[5] 倪崇嘉,刘文举,徐波.汉语大词汇量连续语音识别系统研究进展[J].中文信息学报,2009,23(1):112?123.

[6] 顾亚强.非特定人语音识别关键技术研究[D].长沙:国防科学技术大学,2009.

[7] 中华人民共和国国家质量监督检验检疫总局.GB/T21023?2007 中文语音识别系统通用技术规范[S].北京:中国标准出版社,2007.

[8] 王文慧.基于ARM的嵌入式语音识别系统研究[D].天津:天津大学,2008.

[9] 何湘智.语音识别的研究与发展[J].计算机与现代化,2002(3):3?6.

篇(2)

关键词:嵌入式系统;语音识别;隐马尔可夫;智能家居

中图分类号:TP316.9

文献标识码:A

DOI:10.3969/j.issn.1003-6970.2015.07.021

0 引言

随着计算机的发展,智能家居在近几年也得到了大家的重视,智能家居利用各种通信、网络技术实现家居设备集成,为用户提供了更加舒适高效的环境。近几年人们对智能家居的便利程度提出了更高的要求,同时语音识别技术也进一步的发展,但是语音在智能家居中的应用还是相对较少,一般还要依靠遥控、手机等中控设备。语言是信息交流的重要手段,语音识别可以用声音来控制设备完成一些特定的命令,减少用户如手机,遥控等中控设备的依赖,使生活更加方便。

本文通过对语音识别技术与嵌入式控制技术的研究,用语音命令实现直接管控从而可以取代以往利用手机或者遥控方式来控制的方法,方便操作而又能提高效率。本系统基于NL6621板与语音芯片VS1003实现语音采集,并采用当今语音识别领域的主流技术一一隐马尔科夫模型(Hidden Markov Model,HMM)算法实现对人语音命令的识别主要是进行模型训练和匹配。实验证明在多个语音样本对系统的训练识别下,系统在非特定人、孤立词语识别上具有良好的效果。

1 语音识别与智能家居

1.1 语音识别技术

语音识别技术本质上是一种模式匹配识别的过程,是机器通过识别和理解过程把语音信号转变成相应的文本文件或命令的技术。根据模式匹配过程语音识别系统可以如下图表示。语音识别系统可以分为:特定人和非特定人的识别、独立词和连续词的识别等,无论哪种识别系统识别过程都主要包括了语音信号预处理、特征提取、训练等。分别通过对信号的预处理分析和计算建立模板,当对语音进行识别时,需要将输入的语音与系统中存放的语音进行比较从而得到识别结果。

1.2 语音识别算法

人的言语过程是一个双重随机过程。因为语音信号本身是一个可观察的序列,而它又是由大脑里的不可观察的、根据言语需要和语法知识状态选择所发出的音素(词、句)的参数流,大量实验表明,隐马尔可夫模型(HMM)的确可以非常精确地描述语音信号的产生过程。隐马尔可夫模型是对语音信号的时间序列结构建立统计模型,将之看作一个数学上的双重随机过程,采用HMM进行语音识别,实质上是一种概率运算,根据训练集数据计算得出模型参数后,测试集数据只需分别计算各模型的条件概率(Viterbi算法),取此概率最大者即为识别结果。一阶离散马尔可夫模型可表示为:有N个状态,Sl,S2... SN,存在一个离散的时间序列t=0,t=1…在每个时刻t,系统只能处于唯一一个状态qt,下一个时刻所处的状态是随机出现的,当前状态qt只与前面相邻的一个状态qt-l有关, 与其他状态无关,用表达式

HMM语音识别的一般过程:

1.前向后向算法计算

已知观测序列 和模型 ,如何有效的计算在给定模型条件下产生观测序列O的概率

2.Baum-Welch算法求出最优解 :

(1)初始化

(2)迭代计算

(3)最后计算

3.Viterbi算法解出最佳状态转移序列:

已知观测序列 和模型 ,如何选择在某种意义上最佳的状态序列。

(1)初始化

(2)迭代计算:

4.根据最佳状态序列对应的九给出候选音节或声韵母

5.通过语言模型形成词和句子

2 基于NL6621嵌入式硬件设计

语音识别的硬件平台主要包括中央处理器NL6621,可读写存储器,声卡芯片vs1003以及一些设备,硬件体系结构如图2所示。

主系统使用新岸线公司的NL6621。MCU采用的最高主频为160MHz,支持802.llb/g/n/i/e/p和Wi-Fidirect,BSS STA,软AP,WiFi保护设置以及WMM-PS和WPA/WPA2安全协议。codec芯片是vs1003,它与核心控制器NL6621的数据通信是通过SPI总线方式进行的。它集成了麦克风输入接口,音频输出接口,对话筒输入或者线路输入进行IMA ADPCM编码,能有效的接受和播放音频信息。

硬件电路实现:VS1003通过xCS、xDCS引脚的置高或低来确认是哪一个接口处于传送状态。通过串行命令接口(SCI)和串行数据接口(SDI)来接收NL6621的控制命令和数据,通过SCI HDAT1来获取语音流;VS1003的功能控制,如初始化、软复位、暂停、音量控制、播放时间的读取等,均是通过SCI口写入特定寄存器实现的。两条SCI指令之间要通过DREQ引脚信号判断上一次处理是否完成。

3 基于NL6621嵌入式软件设计

软件设计主要包括两部分实现软件控制嵌入式系统和基于HMM技术的语音识别算法编写,基本的软件架构如图3所示。

针对嵌入式系统控制部分,包括硬件初始化以及采集音频信号。主要是使用NL6621提供的软件开发包,利用SDK编写应用程序,包括硬件管脚初始化,波特率匹配,录音文件配置,WiFi配置,录音,音频文件格式转化、程序编写完成后需要用烧写工具进行烧写。系统启动后,先初始化硬件模块。然后系统开始工作,通过语音输入设备MIC采集语音,并通过声卡VS1003输入语音。当系统监听到语音输入,开始语音识别,判断识别是否正确,若正确,将命令发送给执行设备,入耳不正确,给出相应

的错误提示,不执行语音命令。判断识别是否结束,如果结束则退出,否则继续下一轮的识别。基于HMM技术的语音识别算法编写,还包括了语音预处理,特征值提取和匹配识别的部分。主要的原理如图4所示,输入语音经过预处理后,语音信号的特征被提取出来,首先在此基础上建立所需的模板,这个建立模板的过程称为训练过程。根据语音识别整体模型,将输入的语音信号特征与存在的语音模板(参考模式)进行比较,找出一系列最优的与输入的语音相匹配的模板。然后,根据此模板号的定义,通过查表就可以给出计算机的识别结果。采用HMM进行语音识别,实质上是一种概率运算。根据训练集数据计算得出模型参数后,测试集数据只需分别计算各模型的条件概率(Viterbi算法),取此概率最大者即为识别结果。除训练时需运算量较大外,识别时的运算量仅有模式匹配法的几分之一。

篇(3)

【关键词】语音识别技术;语言实验室

语音识别技术是使用计算机能识别和理解的语言,把语音信号转变为相应的文本或命令的过程。语音识别是一门涉及到语音语言学、信号处理、模式识别、人工智能的多学科交叉技术,也是2000年至2010年间信息技术领域十大重要的科技发展技术之一。随着语音识别技术的发展,在传统的数字化语言实验室中其可以作为一种新的外语辅助教学的手段,完善现有的数字化语音室的功能。

一、语音识别技术

语音识别技术是一种让计算机能够听懂人的语音命令的技术。对使用者来说,这种人机交互的途径是最自然的一种方式。早在三四十年前,美国的一些大学和实验室就开始了语音识别技术的研究,50年代的AT&T Bell实验室研发的Audry系统第一个实现了可识别十个英文数字。60和70年代,提出了线性预测分析技术(LP)等相关理论并深入研究,创造出可以实现特定人孤立语音识别系统;80 年代和90年代是语音识别技术应用研究方向的,HMM 模型和人工神经元网络(ANN)的成功应用,使得语音识别系统的性能比以往更优异;伴随着多媒体时代的来临,微软,Apple 等著名公司都研发出相当成功的商业应用语音识别系统,比如,Apple的Siri系统,微软的Phone Query(电话语音识别)引擎等。近二三十年来,语音识别在交通、军事、工业、医学等诸多方面,特别是在计算机、通信与电子系统、信息处理、自动控制等领域中有着非常广泛的应用。目前,语音识别技术产品在人机交互应用中己经占到越来越大的比例。例如,在声控应用中,计算机可识别输入的语音内容,并根据内容来执行相应的动作,这包括了声控语音拨号系统、声控智能玩具、医疗服务、宾馆服务、家庭服务、股票查询服务和工业控制等。也可用于基于微型机的办公、教学、娱乐等智能多媒体软件,如语言学习、教学软件、语音玩具、语音书籍等。语音识别技术作为语音控制的主体,在应用领域中正成为一个具有竞争力的技术。

语音识别的开发平台现已逐步成熟,在windows下有微软的SAPI语音识别开发平台,在Unix/Linux下有IBM的ViaVoice和开源的Xvoice开发平台。它们都是相当优秀音识别开发系统,提供了良好的开发接口,使语音识别应用程序开发能够不需要对现有系统做大规模的修改,以较少投入、较短周期、以组件方式加入到当前的语言实验室中。

二、语音识别技术在语言实验室中的应用

1.有声图书

可以将一些由外籍专家录制的有声图书加入到语言实验室的资料库中。标准的美式或英式发音,结合文本,逐字逐句的朗读,让学生可以在阅读英语图书的同时聆听到原汁原味的英语。所有图书都支持自动播放,可以一次听完整本书,学生也可以选择单独播放某个句子,并鼓励学生模仿标准的语音语调朗读图书。从而对学生的阅读、听力、口语进行全方位的提高。

2.口述作文

影响语音识别系统辅助学生口述作文的最为关键技术是识别率和纠错能力,从某种意义上说,只要这两个关键的技术得到了提高,则其辅助写作的有效性就会得到较大提高。近几年,随着多媒体技术和人工智能技术的进步,不仅语音识别系统的识别率得到很大提高,而且多语言的语音识别产品也大为丰富。目前国际商业机器(IBM)公司推出的语音识别软件具有非特定人,无限词汇量,连续语音识别,高识别率,专业文章智能分析、理解等强大的语音功能。该软件通过对个人话语进行测试与分析来适应说话者,适应后的语音识别正确率可以达到95%以上。与过去相比,其识别率提高了很多,已经完全可以接受。语音识别系统除了识别率目前已有很大提高,其智能纠错能力也大为提高。一是纠错的操作更加方便和容易,目前的语音识别系统,可以有三种纠错方式:①通过键盘输入方式;②系统智化地产生错误词的相近词列出,供修改者选择;③还可以通过重读来纠错。二是通过纠错,可让语音识别系统更进一步地熟悉说话者的声音,而非常有效地提高系统识别率。随着信息技术的迅速发展,今后的语音识别系统必将是功能更加强大,智能化程度更高,兼容性更强,抗噪音能力更强的系统,其辅助口述作文的有效性也会更强。

3.英语口语纠正系统

语音识别技术的应用使得软件可以具有发音评测的功能,能够帮助学习者及时发现和纠正发音的错误,避免重复错误形成习惯,从而极大提高了学习者的学习效率。英语口语学习中语音识别技术遇到的难点主要有:①语音识别选取基元的问题。一般地,欲识别的词汇量比较多时,所用基元应该越小越好;②端点检测。语音信号的端点检测是语音识别的关键。据研究表明,即便是在安静的环境下,语音识别系统也会有一半以上的识别错误源自端点检测器。提高端点检测技术的关键所在是寻找稳定的语音参数;③找出反映发音质量的性能指标。主要是对发音段(指一段发音的语速、韵律、语调以及重音等)的研究;④对给定的发音进行错误检测和纠正,寻找合理的评分机制。

由于语音识别在理论与技术方面的复杂性,现有的口语纠正软件仍有很大限制范围,但随着语音技术的发展相信其在外语语言学习中的应用会越来越广泛。

三、结束语

语音识别技术作为一种逐渐成熟的计算机技术,是计算机辅助外语教学中的一种重要虚拟现实手段。而人机交互是数字语音室的一个发展方向,也是外语网络教学的核心内容。所以,语音识别技术会是未来语言实验室的建设中的一个重要方向。

参考文献:

[1]夏晴.ARS和TTS技术在外语口语教学中的应用研究[J].外语电化教学,2006(2)

[2]周英.语音识别技术发展趋势的分析[J].计算机光盘软件与应用,2012(19)

[3]孔菊芳.基于语音识别技术的英语学习网站分析[J].哈尔滨职业技术学院学报,2012(5)

篇(4)

关键词:英语口语;语音识别;英文朗读;评分机制

语音识别技术使人与机器的交流成为现实,它开创了口语移动学习的全新教育方式,受到越来越多的关注。借助互联网,移动学习以其学习时间灵活,学习内容丰富、精炼且片段化等特点,开辟了学习的新理念,让口语学习真正摆脱了时间和空间的限制,使任何人在任何时间、任何地点根据需要进行自主学习成为可能。目前,已有的基于PC的智能英语学习软件,能提供基于计算机的辅助技术,让学习者及时得到发音质量评分的智能化功能,但是基于手机端的口语学习应用不多。

本终端是一款基于Android系统开发的,进行英语口语学习的安卓语音软件。产品结合Google语音识别技术,使用GPRS或WiFi进行移动终端与Google云服务端之间的数据交流,并通过对语音识别结果的处理,最终设计成一个可以进行英语口语专线训练和自主训练的应用Oral Storm。

1 研究基础

Android平台自底层向上由四个层次组成:Linux内核层、Android运行时库与其他库层、应用框架层、应用程序层。它采用软件堆层(software stack),又名软件叠层的构架,主要分为3部分:底层以Linux内核工作为基础,由C语言开发,只提供基本功能;中间层包括函数库Library和虚拟机(virtual machine),用C++开发,最上层是各种应用软件。

2 应用架构及功能说明

专项训练模块主要是对英语口语比较重要的四个发音类别进行系统训练,这4个发音类别分别是清辅音、浊辅音、摩擦音和爆破音。在进入训练界面之前,有对各类发音方法和技巧的介绍,利于用户方便快速地学习口语的正确发音。我们将每种发音训练模式中的单词都分成10个小组,这些单词都是由学校专业英语教师挑选的有代表性的词,适合用于英语口语基础训练。用户在进行完每个小组的单词训练后,系统都会对用户的发音作出评价和打分,对经常出现发音错误的单词,用户可以选择保存,用于以后专门的训练。

自主学习模块是用户根据自身实际需求进行训练的板块。用户先输入想要训练的单词或语句,如果不知道如何发音,可以求助于应用中的英文朗读功能。英文朗读功能是将文本转换成语音信号,帮助用户轻松方便地学习每一个英语发音。用户还可以选择性地保存输入的学习内容,方便以后复习使用。

总之,专项训练模块针对学生英语学习中的四大类发音难题设计,通过专题式的学习、测试和智能评分,给用户提供随身的英语单词学习和测试环境;自主训练模块则专注于为用户提供可定制的英语单词学习专题,通过学习内容的自定义给用户最大限度的学习自由度。

3 研究技术

应用功能的实现主要使用了两大技术,获取语音识别技术和语音合成技术。

3.1 获取语音识别技术

单词发音练习需要使用Google语音搜索服务,因此必须判断当前用户手机是否支持该服务,所采用的方法是通过queryIntentActivities()方法,查询Android系统所有具备RecognizerIntent.ACTION_RECOGNIZE_ SPEECH的Intent的应用程序,点击后能启动该应用。

在Android语音识别应用研究与开发的同时,Google语音服务需要网络支持,所以也需要判断当前用户的网络连接状况,在类中写一方法check--NetWorkStatus()引用ConnectivityManager cwjManager来判断网络是否连接正常。

3.2 语音合成技术

语音合成技术,是一种将文本转换为语音输出的技术,其主要工作是将文本按字或词分解为音素,然后将音素生成的数字音频用扬声器播放或者保存为声音文件,然后通过多媒体软件播放。

Android手机平台,绑定了英文语音引擎,对英文语音提供内置的支持。要将文本转换为语音,首先要检查TTS数据可用,指令TextToSpeech中的Engine ACTION_CHECK_TTS_DATA就可以完成,返回结果为真,表明TTSEngine可以使用。除此之外,还有语音数据损坏和缺少发音数据等原因导致TTSEngine不能使用,这些因素都要考虑。之后是初始化TTS接口,这部分要设置发音语言引擎setLanguage(Locale.US)、发音音量Len(Volume)等。在这个过程中,还需要检测设置的发音语言类型是否可用。

4 结束语

我们开发的口语学习软件Oral Storm,可为训练单词发音提供专业、智能及终端化的一体化学习和测试环境,专题分类科学、全面,涵盖了爆破音、摩擦音等发音难点,可在专题学习后提供智能评分和语音纠正。用户使用这款应用,可以方便快速地学习英语口语的正确发音。

参考文献

[1] 邢铭生,朱浩,王宏斌.语音识别技术综述[J].科协论坛:下半月,2010(3):62-63.

[2] 詹青龙,张静然,邵银娟.移动学习的理论研究和实践探索[J].中国电化教育,2010(3):1-7.

[3] 周丽娴,梁昌银,沈泽.Android语音识别应用的研究与开发[J].广东通信技术,2013,33(4):15-18.

[4] 涂惠燕,陈一宁.基于语音识别和手机平台的英语口语发音学习系统[J].计算机应用与软件,2011,28(9):64-66.

篇(5)

关键词:Speech SDK;语音识别;Voyager-IIA旅行家二号;教学平台

中图分类号:TP319 文献标识码:A 文章编号:1672-7800(2013)005-0096-02

0、引言

教学技术的进步关键在于构建一个良好的辅助教学支撑平台,通过该平台教师可以方便地展示教学课程信息,学生利用该教学平台可以进行科学实验和工程实践,以获取真实的实验数据。

机器人学作为一门综合了机械、电子、计算机及人工智能、仿生等诸多专业的新兴学科,在工程研究和应用领域得到了越来越广泛的重视。我国各大高等院校也纷纷开设与机器人相关的课程,这对普及机器人知识和加强其产业化进程无疑会起到重要的作用。

基于这种理念,设计了基于ARM11的智能语音识别机器人教学平台。

1、语音识别机器人教学平台现状

教学技术平台是开展各科教学的必要条件,是现代教育教学开展的基础。从近年发展的情况看,各种教学平台的设计与运用在教学过程中起着越来越重要的作用。如何设计满足现代学习者需要的教学平台?如何将计算机技术、通信技术、机器人技术发展优势同现代教学的需求结合起来?这是现在教学平台发展至关重要的方面。现代教学平台在技术发展驱动和现代教育应用形态发展需求下,出现了许多不同的个性化教学技术平台。

随着人们对现代教育认识的加深和对传统教育的反思,人们的知识观和教育观发生了很大变化。高校课程改革大举推进,高等教育更要突出实践、突出创新。高校课程要突出沉浸感、交互性、自主性等特征。教学平台本身将从以教学机构为中心逐步走向以学生为中心,教学平台从提供教学内容、教学产品转向为学习服务的功能。

国内外许多高等院校都已开展了机器人教学工作。麻省理工学院开设了认知机器人学、机器人学导论、自控机器人设计竞赛和机器人编程竞赛等课程,分别在航空航天学、机械工程学和电气工程与计算机科学专业中开设;北京邮电大学为本科生开设了工业机器人技术,相应的实验课为机器人系统综合性试验;浙江大学自动控制系为本科生开设了机器人学,在校内组织了多种形式的机器人竞赛活动,包括FIRA小型足球机器人竞赛、开放性公共目标机器人竞赛等。总之,国内外高校广泛开展了以机器人为对象的教学平台建设,开设机器人技术课程、开展本科毕业设计的机器人实践活动以及多层次机器人竞赛活动。

2、语音识别技术基本方法

语音识别技术目前的主流算法,主要有传统的基于动态时间规整(DynamicTimeWarping,简称DTW)算法、基于非参数模型的矢量量化(Vector Quantization,简称VQ)方法、基于参数模型的隐马尔可夫模型(Hidden Markov Mod—els,简称HMM)方法和基于人工神经网络(Artificial NeuralNetwork,简称ANN)等语音识别方法。

3、语音识别机器人教学平台研究与设计

3.1 设计思路

语音识别机器人教学平台,将Windows CE6.O系统定制和移植到以ARM11为处理器的核心板上,并且在Windows CE6.O系统上实现对机器人的语音控制,从而摆脱基于PC机控制的不便。在实现过程中,将应用微软公司开发的Speech SDK5.1为平台,通过调用微软的SpeechSDK语音识别引擎,使用开发板串口连接并驱动机器人执行一些简单的行为动作。

3.2 语音识别机器人教学平台系统架构

本教学系统采用的$3C6410是一款基于ARM11内核的微控制器,其主频达667MHz,并具有丰富的接口。本控制器(如图1)的硬件主要包括采用ARM11内核的$3C6410微处理器、机器人驱动器、电源、串口、麦克风、扬声器等。

本语音识别机器人,主要由开发板的麦克风接口进行语音信号的采集,通过控制器扩展板进行语音信号的处理,处理时调用微软的语音识别引擎进行语音信号的识别与合成,然后通过内部编程由扩展板的串口向机器人发送相关的指令来驱动电机的转动,从而实现机器人的左转、右转、前进、后退、停止等语音控制。

3.3 教学平台系统移植模型

系统移植模型(如图2)协助WindowsCE实现广泛的硬件支持,同样使用了工具和软件接口技术整合的形式。这一层的可移植性主要在3个层面:CSP支持不同的处理器系统结构;BSP支持不同的硬件主机板(I/0、总线等等);驱动程序支持不同的。从工具的角度看,开发工具主要是以指导手册的形式协助开发者配置修改一个具体的OAL。驱动模型被包括在Windows CE的类别驱动程序中,这些类别驱动程序一般由Windows CE操作系统提供。

3.4 语音识别类封装及算法实现流程

语音识别过程是将自然语言转换为数据信息的过程,语音识别技术也可以简单描述成Speech-to-Text的识别。该语音识别系统的处理过程是:学习者通过语音输入设备输入语音信号,然后通过语音接收器接收语音数据转化为数字信号,传入语音识别引擎进行处理,语音识别引擎处理完成后传递给相关语音识别程序去处理相关应用,从而达到利用语音来实现某种控制的效果。本系统的语音识别类封装和语音识别算法实现流程如图3所示。

篇(6)

14年前,志在语音识别的科大讯飞在合肥悄然成立,当时还被外界讥笑为“草台班子”的这家本土创业公司,如今已经发展成为亚太地区最大的语音上市公司。作为中国语音识别的“领头羊”,科大讯飞的这个标签还能贴多久?在科大讯飞副总裁兼创始人之一江涛看来,科大讯飞的突破点在于,提供语音识别的技术和服务,解放人们的双手。

“草台班子”的摸索

创业之初,科大讯飞希望改变人类使用电脑的方式。但事实证明,时候未到。

上世纪90年代末,语音识别技术已经在全球范围内掀起了一波热潮,科大讯飞也是顺着这股热潮成立的。“彼时,IBM、英特尔等几大主流科技公司也早已开始语音识别技术的研发和商业探索。”江涛告诉《二十一世纪商业评论》(以下简称《21CBR》)。1998年IBM了第一个基于语音识别技术的产品。第二年全球科技十件大事之一便是IBM的语音识别技术,计算机第一次能够进行语音输入。除了IBM,英特尔、摩托罗拉、松下等很多国外巨头也都开始在国内设立语音研发中心,希望在人机交互和信息录入领域抢占先机。

“但是在后来证明,这个技术和产品在当时的条件下是不成熟的。”江涛认为有两个方面原因:一个是当时的语音针对PC,而PC相对于键盘和鼠标这些交互设备比较成熟,语音的需求并不够迫切。另外,“当时整个云计算、移动互联网的环境和体系还没有形成。全是单机,在一台机器上安装一个语音识别系统需要锻炼很久,使用成本太高。”

即便如此,直到2000年前后,中国的语音技术基本都掌握在IBM等大公司手中。而像科大讯飞这样的本土创业公司,空有实验室技术,在当时的环境下不知道该如何面向市场,面向用户。“我们一直到2004年才盈亏平衡,在这个过程中我们没有钱,也不知道该怎么开拓市场,所有人都是技术出身,都没有产业经验。”江涛说。

创业之初,科大讯飞希望改变人类使用电脑的方式。“我们当时做了一个叫做‘畅言2000’的产品。口号是把键盘输入的准确性、语音输入的方便性、手写输入的随意性融合在一起,它可以打开浏览器,打开Word,然后配合手写板输入内容。”这是科大讯飞的第一个产品,一套软件当时的定价是1000多元人民币。“但是去哪里推广,怎么做推广,我们完全不知道。”

随着“畅言2000”以失败告终,苦于推广无门的科大讯飞第一次参加了当年的高交会。“当时华为等一些做电信设备的厂商公司发现了我们,在他们的呼叫中心智能网中间有需要使用语音的地方,比如说语音合成,呼叫中心的语音播报,智能网中间的信息播报等。”很快,迅飞便跟华为、中兴等一些大的厂商对接上,成为它们的语音技术提供商。

“我们后来一想也是这样,一个创业团队没有市场经验,也没有市场能力,没有资金,不可能去做‘2C’的市场,那个时候的条件也不具备。做‘2B’的市场,做自己擅长的部分,把技术提供给合作伙伴,然后合作伙伴去做对应的应用更可行。”江涛说。这是科大迅飞的第一桶金,也是第一个商业模式。“依靠这个模式,我们实现了盈亏平衡。到2004年,我们已经是中国最大的语音技术提供商。”

在尝到了做“技术提供商”的甜头后,2004年,手机彩铃被引进中国,“在没有智能手机的时代,面对几十万首歌,用户在电话里怎么选?”江涛说,为此,迅飞开发了针对音乐的语音搜索,“想下载谁的彩铃,听谁的歌,直接在电话里面语音搜索。”在这个基础上,迅飞进一步把技术应用到跟音乐、彩铃下载和搜索相关的其他领域。“现在联通、电信,还有移动,相关于音乐的语音搜索技术全部由讯飞提供。”江涛说。

基于同样的思路,迅飞开始把语音识别技术扩展到教育领域。“从技术上看,针对这两个领域,迅飞所做的事情主要是语音合成,把语音转换成文字。”江涛告诉《21CBR》,虽然在当时这个技术事实上已经没有门槛,但迅飞的优势在于做“技术提供商”的商业模式和针对细分领域提供的服务。目前,针对音乐和教育领域的收入依然是迅飞营收的主要来源之一。“现在音乐领域每年的收入大概在一个亿左右。”

从技术到服务

语音识别不是完全靠算法能解决的,时间和数据积累才是最大的壁垒。

2008年前后,中国开始发放3G牌照,以苹果、安卓为代表的智能机逐步兴起。“我们觉得这个时候语音技术真正的机会才出现,因为智能手机相对于PC来说,屏幕更小,输入更不方便,语音在人机交互过程中显得更有价值。”江涛说。目前,讯飞所开发的手机应用讯飞语音已拥有超过2亿用户。

“我们现在最大的挑战还是用户的习惯,尤其是中国人觉得对着手机说话太傻了。”江涛说。好在随着苹果、谷歌加上腾讯的微信正在不断地教育用户的使用习惯,越来越多的人开始适应这种跟机器的交流方式。

科大讯飞在移动互联网领域的另一个产品是讯飞输入法。“我们从2011年开始做这个产品,当时讯飞没有任何知名度,没有品牌,完全靠用户口碑来推广。”江涛说。目前,讯飞输入法的用户超过8000万。

尽管移动互联网来势汹汹,江涛和他的团队还是希望把自己定位为“语音服务提供商”。“我们一方面还会持续面向电视机、汽车、地图等合作伙伴提供语音技术,另外一方面也会以输入法这些产品为代表,面向用户提供直接的交互服务和终端产品。”江涛告诉《21CBR》记者。目前,康佳、海尔、创维、海信等电视厂商都采用了迅飞语音识别技术和开发平台。讯飞也与国内主要汽车电子厂商及车厂等建立了合作,包括奇瑞、江淮、上汽、奥迪、德尔福、大陆电子、哈曼等,但这一领域对公司营收的贡献微乎其微。

从技术的角度来看,语音识别在过去20年的发展和进化过程中早已不再拥有高门槛。在外界看来,科大讯飞缺乏足够宽广的护城河——掌握互联网入口的企业百度、腾讯等巨头,都在觊觎语音识别领域。而随着3G网络和智能终端的普及,这些条件又为语音识别打开了一扇新的大门。江涛也认为:“目前,就技术上的发展来讲,语音识别的门槛的确不高,大数据云计算带来了更加开阔的技术可能性和便利。”

篇(7)

上面这段并非笔者杜撰,而是著名的语音和图像解决方案提供商Nuance公司研发工程总监张亚昕为大家描述的语音识别技术在车载系统中的应用情景。

其实,语音识别技术早已有之,1998年,飞利浦和摩托罗拉就将语音识别技术引入手机,但并没有引起人们的关注,直到去年苹果iphone 4里的Siri出现,才让人们真正开始关注语音识别。张亚昕认为,这主要是因为以前的技术只能进行特定词汇的语音识别,而如今的语音识别技术可以识别自然语言,真正让用户体会到了流畅自然的人机交互体验。

也许是因为汽车内安全驾驶的重要性吧,语音识别技术特别受到了汽车市场的青睐。越来越多的汽车制造商开始在汽车中装入语音识别接口,用于管理移动连接;同時提高驾驶安全系数。Strategy Analytics的统计表明,到2012年,中国原始设备制造商(OEM)所提供的具备语音人机接口的信息娱乐和车载信息通信系统(telematics)的出货量将达到300万台,并预期在2018年达到20009万台。

但是,语音识别是非常耗费资源的一项工作,在目前的应用中,用户接口依赖于通用型硬件和软件,一般采用通用的应用处理器,语音识别只是众多应用中的一个程序,系统硬件无法为语音处理做出优化,限制了处理速度和处理精度。例如,在车载GPS应用中,地图软件的运行就会占据处理器很多资源,这种情况下,启用语音识别将会给CPU带来很大负担,处理能力上的不足会影响语音识别的速度和准确度,让用户体验大打折扣。