欢迎光临112期刊网!
网站首页 > 论文范文 > 计算机论文 > 应用电子技术 > 基于词网模型的连续语音识别系统MYASR的设计与开

基于词网模型的连续语音识别系统MYASR的设计与开

日期:2023-01-24 阅读量:0 所属栏目:应用电子技术


摘 要:基于词网模型的连续语音识别系统在各方面得到了广泛应用,如语音拨号、语音指令、语音菜单、语音导航及语音电话簿等。本文在研究语音识别理论的基础上,设计并开发了基于词网模型的连续语音识别系统-MYASR。MYASR提供了丰富的功能模块,包括前端处理、特征提取、模型训练、词网构建、识别等,使开发一个基于词网模型的连续语音识别应用系统更加方便,同时也是语音识别研究的实验平台。MYASR所采用的XML描述文件,使系统具有良好的可读性和可扩展性。通过在TIMIT语料库上单音子连续语音识别的实验显示,MYASR具有很高的识别性能和实时性能。

关键词:语音识别;MYASR系统;XML语言

1.引言
  在小词汇量的语音识别系统中,主要分为孤立词识别和基于词网模型的连续语音识别。前者通过词发音端点分割算法,把每个词的发音从整段语音中分割出来,然后再到模型集中去寻找最佳的匹配作为识别结果。XML同HTML一样,都来自SGML(标准通用标记语言)。SGML是一种在Web发明之前就早已存在的用标记来描述文档资料的通用语言。但SGML十分庞大且难于学习和使用。鉴于此,人们提出了XML 语言,它具有可扩展性、灵活性、自描述性、简明性的优点。
  在MYASR系统中有多个功能模块,每个功能模块都有各自的参数,采用XML语言对这些参数进行描述更加直观,可读性更强。例如,MYASR中MFCC编码的XML描述如下:
  
     MFCC_0_D_A 
    16000
     400
    160
     512
     200 
    7000 
    0.97
     26 
     12 
     10 
  

  
  MYASR通过XML解析器将XML元素中的参数提取出来,然后再传递给各个功能模块。当需要增加参数时,只要在XML文件中适当位置增加一个元素(Element)即可,具有良好的可扩展性。
3.系统开发
MYASR系统的模块结构如下所示:


3.1前端处理
  MYASR的前端处理包括以下功能模块:自动增益控制(AGC)、噪音消除、预加重处理。其相应的XML描述如下:

 
   20        //帧长
  
    0.5   
    2.0   //最大增幅
    1.0    //最小增幅
  
   0.97 //预加重系数
  1    //噪音消除
 

 

  其中属性"workdir"表示当前的工作目录,元素表示自动增益控制参数,元素表示预加重参数,元素表示是否对语音进行噪音消除。元素表示批处理文件,此文件中描述了目标文件名及处理后的文件名,内容如下:
  ""  ""
  ""  ""
  ""  ""
  .........
3.2端点分割
  在MYASR系统中,实现两种类型的端点分割:句子端点检测,词端点检测。采用的静音检测方法有【2】:基于短时能量、基于短时平均过零率、和基于GMM模型。其XML描述如下:
 
   SENT_CUT
   GMM_VAD
   500             //单位为毫秒
  

  元素表示端点分割方法:设置SENT_CUT表示句子端点分割,设置WORD_CUT表示词端点分割。元素表示静音检测的方法:设置GMM_VAD 表示采用基于GMM模型,PW_VAD表示基于短时能量,COS_VAD表示基于短时平均过零率。元素表示检测对象之间允许的停顿时间,超过停顿时间意味着出现新的句子或词。
3.3特征提取
  MYASR系统中目前采用MFCC结合动态差分参数作为特征矢量。将语音文件转换为MFCC编码的XML描述文件如下所示:
 
  
  
  

  其中是MFC C特征参数的描述文件,内容如下:
  
     MFCC_0_D_A  //类型
    16000   //采样率
         400   //帧长
    160       //帧移
     512      //FFT的窗长
     200     //截止的最低频率
     7000    //截止的最高频率
     26     //MEL滤波器数
     12     //MFCC维数
     10     //参数提升系数
  

  其中元素表示特征矢量标志,有6种类型:
  表3-1  MYASR中MFCC编码类型

标志

含义

MFCC

MFCC参数

MFCC_0

MFCC参数加对数能量

MFCC_D

MFCC参数及其一阶差分

MFCC_0_D

MFCC参数加对数能量,及一阶差分

MFCC_D_A

MFCC参数及其一阶、二阶差分

MFCC_0_D_A

MFCC参数加对数能量,及一阶、二阶差分

元素中的文件描述了语音源文件及转换成MFCC的目标文件,内容如下:
  ""  ""
  ""  ""
  ""  ""
  .........
3.4模型训练
  MYASR采用了连续概率密度的HMM模型,模型参数初始化采用了"K-均值分割"算法,参数重估采用"Baum-Welch"算法。其XML描述文件如下:
  
        
      
   
    3      //HMM状态数
    4       //高斯分量个数
    39       //特征矢量维数
    GMM_EM     //聚类算法
    MFCC_0_D_A   //特征矢量标志
   

    //输出文件
  
  其中,元素中的文件表示要训练的那些词或音子。
元素中的文件描述了特征矢量文件及其标注文件,内容如下:
  ""  ""
  ""  ""
  ""  ""
  .........
  标注文件".lab"中注明了每个单元的发音起点和终点,MYASR将根据标注文件从特征文件中读取特征矢量进行HMM模型的训练。标注文件内容如下:
  0    191   sil
  191  285   sh
  285  358   ix
  358  415   hh
  415  548   eh
  548  646   jh
  646  720   ih
  720  790   d
  790  920   ah
  ....
  其中时间单位为毫秒。
  元素表示"K-均值分割"算法中对B参数进行重估所采用的算法,有两种选项:GMM_EM表示EM算法,K_MEANS表示"K-means"算法。实验结果显示,EM算法比"K-means"算法具有更好的性能。
  表示训练输出的HMM模型文件,内容如下:
  
   
    MFCC_0_D_A
    3
    4
    39
   

   
    
         1.906841e+001 1.900540e-001 ...... //均值
            2.945649e+001 1.096035e+002......    //方差
         2.212352e-001            //权重
          

           ......
    

    ......
  
3.5词网构建
3.5.1 词网模型的双层结构
  MYASR中的词网模型分为两层:一层是描述层,主要用于描述词网的结构,包括上下文无关文法和有限状态图;另一层是模型层,这一层由HMM模型构成的搜索网络,是搜索算法的输入。首先由用户定义语法规则,然后转换成有限状态图,最后结合HMM模型集和发音字典将其转化成搜索算法可以处理的模型层搜索网络。

3.5.2 描述层到模型层的转换
   在模型层搜索网络中,按节点是否有词输出分为两类:空节点和词节点。空节点中不含有HMM模型,而只是作为词网中的一个过度节点,如起始节点(#START),终止节点(#END),中转节点(#L)都是没有词输出的节点。而词节点则包含了构成这个词的HMM模型。
  词网模型的有限状态图转换成模型层搜索网络的过程为:当遇到空节点时,不作处理;当遇到词结点时,在字典哈希表找到这个词,并保存word_id,word_id是这个词在字典哈希表的索引,当搜索结束后,回溯时就是根据这个word_id找到哈希表中对应的词;同时根据这个词的发音,到HMM哈希表中查找子词的HMM模型,然后在这个词结点中创建指向子词HMM模型的指针。转换后的模型层搜索网络如图3-4所示。

    模型层搜索网络构建后,就可以用Token-Passing算法进行搜索。
4 总结
  本文在研究语音识别理论的基础上,设计并开发了基于词网模型的连续语音识别系统-MYASR。MYASR提供了丰富的功能模块,使开发一个基于词网模型的连续语音识别应用系统更加方便,同时也是语音识别研究的实验平台。MYASR所采用的XML描述文件,使系统具有良好的可读性和可扩展性。通过在TIMIT语料库上单音子连续语音识别的实验显示,MYASR具有很高的识别性能和实时性能。当前系统只是在Windows平台上,为适应各种应用的需要,在后续的语音识别系统设计中,可考虑将系统移植到嵌入式平台。
参考文献:
 Ney H , Haeb2Umbach R , Tran B H , et al .  

本文链接:http://www.qk112.com/lwfw/jsjlw/yydzjs/232495.html

论文中心更多

发表指导
期刊知识
职称指导
论文百科
写作指导
论文指导
论文格式 论文题目 论文开题 参考文献 论文致谢 论文前言
教育论文
美术教育 小学教育 学前教育 高等教育 职业教育 体育教育 英语教育 数学教育 初等教育 音乐教育 幼儿园教育 中教教育 教育理论 教育管理 中等教育 教育教学 成人教育 艺术教育 影视教育 特殊教育 心理学教育 师范教育 语文教育 研究生论文 化学教育 图书馆论文 文教资料 其他教育
医学论文
医学护理 医学检验 药学论文 畜牧兽医 中医学 临床医学 外科学 内科学 生物制药 基础医学 预防卫生 肿瘤论文 儿科学论文 妇产科 遗传学 其他医学
经济论文
国际贸易 市场营销 财政金融 农业经济 工业经济 财务审计 产业经济 交通运输 房地产经济 微观经济学 政治经济学 宏观经济学 西方经济学 其他经济 发展战略论文 国际经济 行业经济 证券投资论文 保险经济论文
法学论文
民法 国际法 刑法 行政法 经济法 宪法 司法制度 法学理论 其他法学
计算机论文
计算机网络 软件技术 计算机应用 信息安全 信息管理 智能科技 应用电子技术 通讯论文
会计论文
预算会计 财务会计 成本会计 会计电算化 管理会计 国际会计 会计理论 会计控制 审计会计
文学论文
中国哲学 艺术理论 心理学 伦理学 新闻 美学 逻辑学 音乐舞蹈 喜剧表演 广告学 电视电影 哲学理论 世界哲学 文史论文 美术论文
管理论文
行政管理论文 工商管理论文 市场营销论文 企业管理论文 成本管理论文 人力资源论文 项目管理论文 旅游管理论文 电子商务管理论文 公共管理论文 质量管理论文 物流管理论文 经济管理论文 财务管理论文 管理学论文 秘书文秘 档案管理
社科论文
三农问题 环境保护 伦理道德 城镇建设 人口生育 资本主义 科技论文 社会论文 工程论文 环境科学