语音识别的原理是什么 (语音识别的原理)
本文目录导航:
语音识别的原理是什么?
目前,干流的大词汇量语音识别系统多驳回统计形式识别技术。
典型的基于统计形式识别方法的 语音识别系统由以下几个基本模块所形成信号解决及特色提取模块。
该模块的关键义务是从输入信号中提取特色,供声学模型解决。
同时,它普通也包括了一些信号解决技术,以尽或者降落环境噪声、信道、谈话人等起因对特色形成的影响。
统计声学模型。
典型系统多驳回基于一阶隐马尔科夫模型启动建模。
发音词典。
发音词典蕴含系统所能解决的词会集及其发音。
发音词典实践提供了声学模型建模单元与言语模型建模单元间的映射。
言语模型。
言语模型对系统所针对的言语启动建模。
实践上,包括正则言语,高低文有关文法在内的各种言语模型都可以作为言语模型,但目前各种系统广泛驳回的还是基于统计的N元文法及其变体。
解码器。
解码器是语音识别系统的外围之一,其义务是对输入的信号,依据声学、言语模型及词典,寻觅能够以最大略率输入该信号的词串。
从数学角度可以愈加清楚的了解上述模块之间的相关。
首先,统计语音识别的最基本疑问是,给定输入信号或特色序列,符号集(词典),求解符号串使得:W = argmaxP(W O) 经过贝叶斯公式,上式可以改写为因为关于确定的输入串O,P(O)是确定的,因此省略它并不会影响上式的最终结果,因此,普通来说语音识别所探讨的疑问可以用上方的公式来示意,可以将它称为语音识别的基本公式。
W = argmaxP(O W)P(W)从这个角度来看,信号解决模块提供了对输入信号的预解决,也就是说,提供了从采集的语音信号(记为S)到 特色序列O的映射。
而声学模型自身定义了一些更具推行性的声学建模单元,并且提供了在给定输入特色下,估量P(O uk)的方法。
为了将声学模型建模单元串映射到符号集,就须要发音词典施展作用。
它实践上定义了映射的映射。
为了示意繁难,也可以定义一个由到U的选集的笛卡尔积,而发音词典则是这个笛卡尔积的一个子集。
并且有:最后,言语模型则提供了P(W)。
这样,基本公式就可以愈加详细的写成:关于解码器来说,就是要在由,,ui以及期间标度t张成的搜查空间中,找到上式所指明的W。
语音识别是一门交叉学科,语音识别正逐渐成为消息技术中人机接口的关键技术,语音识别技术与语音分解技术联合使人们能够甩掉键盘,经过语音命令启动操作。
语音技术的运行曾经成为一个具备竞争性的新兴高技术产业。
与机器启动语音交换,让机器明确你说什么,这是人们常年以来念念不忘的事件。
语音识别技术就是让机器经过识别和了解环节把语音信号转变为相应的文本或命令的高技术。
语音识别是一门交叉学科。
近二十年来,语音识别技术取得清楚提高,开局从试验室走向市场。
人们估量,未来10年内,语音识别技术将进入工业、家电、通讯、汽车电子、医疗、家庭服务、生产电子产品等各个畛域。
语音识别听写机在一些畛域的运行被美国资讯界评为1997年计算机开展十件小事之一。
很多专家都以为语音识别技术是2000年至2010年间消息技术畛域十大关键的科技开展技术之一。
语音识别的技术原理是什么?
假设要细说的话就比拟复杂了,比如模型库中又分为声学模型和言语模型。
其中言语模型是依据不同种类的言语,对词串中止统计建模,目前广泛驳回的是基于(n-1)阶马尔可夫链统计的n元语法模型。
这里粗疏说下声学建模吧。
首先经过前端特色提取取得声学特色,再进一步对声学特色中止统计建模。
建模运用到的贝叶斯统计建模框架,也就是最大后验概率决策准则。
这里算法这种深奥的物品就不说了,除非深度开发,否则间接套用就行了,我自己也是博览群书,还是念书的时分学的。
说说提取声学特色该如何实现:当语音输入之后,首先中止模电转换,将模拟信号转变为数字信号,再中止静音切除去掉有关噪音,而后中止分帧。
将此时的信号分成一帧一帧之后(每一帧并不是独立存在的而是相互关联的),还要中止一系列的信号处置,包括预减轻、加窗之后,再中止FFT变换之后,再经过Mel参数的滤波和取对数、团圆余弦变换等一系列算法处置后,能够中止用梅尔频率倒谱系数(MFCC)中止特色提取,失掉声学特色。
感觉越说越复杂了……前面繁难点说吧。
前面说了言语模型,而声学模型就是将声学特色统计建模后失掉的。
失掉了模型库之后就能够中止模型锻炼和方式婚配了。
所谓模型锻炼就是指依照必定的准则,从少量已知语音方式中失掉一个最具特色的模型参数。
而方式婚配则同样,是依据必定准则,将未知语音方式与模型库中的某一个模型取得最佳婚配。
最后的解码环节又能够分成灵活解码网络和静态解码网络两种:灵活网络会编译一个形态网络并形成搜查空间,把单词转换成一个个的音素后将其依照语序拆分成形态序列,再依据音素高低文对抗性准绳将形态序列中止连贯。
而静态网络普通是针对一些不凡词(孤立词)的识别网络,它的构培育繁难多了:先将每条不凡词裁减成HMM形态序列,而后再计算得分,选用得分最大的作为辨逞强入结果。
因为静态网络是依据声学概率计算权重,不需求查问言语模型概率,因此解码速度很快。
如何用语音查问搜查引擎的内容?
假设这样的话,搜查结果的最上方有这么一行字:“揭示:为了提供最相关的结果,咱们省略了一些内容相似的条目,点击这里可以看到一切搜查结果。
”单击一下就可以了。
所谓搜查引擎,就是依据用户需求与必定算法,运用特定战略从互联网检索出制订消息反应给用户的一门检索技术。
搜查引擎附丽于多种技术,如网络爬虫技术、检索排序技术、网页解决技术、大数据解决技术、人造言语解决技术等,为消息检索用户提供极速、高相关性的消息服务。
搜查引擎技术的外围模块普通包括爬虫、索引、检索和排序等,同时可减少其余一系列辅佐模块,以为用户发明更好的网络经常使用环境。
定义
语音
搜查引擎是指依据必定的战略、运用特定的计算机程序从互联网上采集消息,在对消息启动组织和解决后,为用户提供检索服务,将检索的相关消息展现给用户的系统。
搜查引擎是上班于互联网上的一门检索技术,它指在提高人们失掉收集消息的速度,为人们提供更好的网络经常使用环境。
从配置和原理上搜查引擎大抵被分为全文搜查引擎、元搜查引擎、垂直搜查引擎和目录搜查引擎等四大类。
搜查引擎开展到当天,基础架构和算法在技术上都曾经基本成型和成熟。
搜查引擎曾经开展成为依据必定的战略、运用特定的计算机程序从互联网上收集消息,在对消息启动组织和解决后,为用户提供检索服务,将用户检索相关的消息展现给用户的系统。
文章评论
该文章详细介绍了语音识别技术的原理和技术细节,包括声学模型、言语模型和解码器等模块的功能和作用,同时介绍了语音查问搜查引擎的内容及其定义和分类等基本概念知识内容充实详尽且易于理解评论非常有价值!