欢迎光临112期刊网!
网站首页 > 论文范文 > 计算机论文 > 计算机应用 > 基于二字词检测位图表的MM自动分词算法

基于二字词检测位图表的MM自动分词算法

日期:2023-01-24 阅读量:0 所属栏目:计算机应用


摘 要:中文自动分词是中文信息处理中的重要步骤,它是机器翻译、计算机人机接口等诸多中文信息应用领域的基础,因此,对其研究具有重要的理论和现实意义,利用最大匹配法(MM)进行自动分词经实践证明是有效的、可行的汉语分词法。

关键词:自动分词;最大匹配法;二字词函数
一、汉语自动分词及分词评价系统简介
  汉语自动分词是对汉语文本进行自动分析的第一个步骤。词是最小的、能独立活动的、有意义的语言成分。分词体现了汉语与英语的显著的不同。英语文本是小字符集上的已充分分隔开的词串,而汉语文本是大字符集上的连续字串。把连续的字串分隔成词串,就是分词系统需要做的工作。可以这样设想汉语自动分词过程的困难:如果把某个英语文本中的所有空格符都去掉,然后让计算机自动恢复文本中原有的空格符,这就是词的识别过程,这个过程需要解决的首要问题就是歧义字段的切分问题。
  分词可以由人工完成,也可以由计算机根据事先编好的程序来自动完成。人工分词工作量大,难以处理大规模语料。计算机自动分词速度快,一致性好,但是难以运用人工的各种分词知识,一般来说分词结果的准确率要低于人工分词。现在通常是先由计算机自动分词,然后辅之以人工校对。
  分词算法的好坏,分词系统性能的高低采用三个指标评价:正确率、召回率、F值。
二、MM分词模型
  MM即最大匹配法(Maximum Mateh Method)的缩写形式,是目前书面汉语自动分词算法中的典型算法。最大匹配法(MM)在一定程度上模拟了人工分词的心理过程。所谓“最大匹配”,就是尽可能地用最长的词来匹配句中的汉字串,从而使得切出来的词尽可能长,词的数量尽可能少。
  对于MM分词方法,可以建立一个一般的模型,形式地表示为:ASM(d,a,m),即Automatic Segmentation Model。其中,?d:匹配方向,+1表示正向,-1表示逆向;?a:每次匹配失败后增加/减少字串长度(字符数),+1为增字,-1为减字;?m:最大/最小匹配标志,+1为最大匹配,-1为最小匹配。
三、基于二字词检测位图表的MM自动分词算法描述
  根据汉语中二字词较多的特点,在算法上增加二字词检测位图表对分词词典数据结构优化,实现快速判断二字词与匹配词典分词交叉进行的分词算法。
  如前所述,首先建立的分词模型包括ASM(+,+,+),即正向增字最大匹配法(FMM方法)模型,还包括ASM(-,+,+),即反向增字最大匹配法(RMM方法)模型。FMM和RMM双向匹配可以检测出大多数交集型歧义字段。
  设有汉字串S,长度为n,改进最大匹配算法的伪代码描述如下:
  CurPos<-0;            //设置当前处理位置为字符串起始处
  WordLen<-1;          //设置词的长度为1
  While(CurPos+WordLen<=n)
  {
    If(WordLen==1)
    MayBeWord=FindWord(S,CurPos,WordLen);    //匹配单字词
    Else
      {
        If(WordLen==2)
        MayBeWord=Check2CWord(S,CurPos,WordLen);  //判断二字词
        Else
        MayBeWord=FindWord(S,CurPos,WordLen);        //匹配
        }
      If(MayBeWord)
          {
            PushWord(S,CurPos,WordLen);          //保留中间分词结果
            WordLen<- WordLen+1
            }
          Else
            {CurPos<- CurPos+1
            WordLen<-1;
            }
      }
  该算法应用于全切分、正/反向最大匹配算法都是如此。
四、实验结果及结论
  选取人民日报切分标注语料库PFR1.0作为样本进行实验测试,设调用函数Fnidword匹配一个词需要时间为Tf,调用函数Check2CWord判断一个二字词需要时间为Tc,在PⅢ1GCPU,376M内存以及20G硬盘,操作系统为wnidows2003的实验平台下,通过实验测试得到Tf的平均时间消耗为0.000008秒,Tc的平均时间消耗为0.000002秒,由此可见,调用函数Check2CWord判断二字词比调用函数FindWord匹配词的速度提高75%。由此证明基于二字词检测位图表的MM自动分词算法是进行汉语自动分词的较好方式。
参考文献:
[1]奉国和, 郑伟. 国内中文自动分词技术研究综述[J]. 图书情报工作,2011(2).
[2]刘韬. 设立切分标志法在中文地址自动分词中的改进与应用[J].电脑知识与技术(学术交流),2009(11).
[3]卢俊之. 分词不一致不同成因的自动识别研究[J].现代语文(语言研究),2007(11).
[4]萧克曦. 在线英语语料库自动分词和分句的实现[J].电脑知识与技术,2010(28). 本文链接:http://www.qk112.com/lwfw/jsjlw/jisuanjiyingyong/242408.html

论文中心更多

发表指导
期刊知识
职称指导
论文百科
写作指导
论文指导
论文格式 论文题目 论文开题 参考文献 论文致谢 论文前言
教育论文
美术教育 小学教育 学前教育 高等教育 职业教育 体育教育 英语教育 数学教育 初等教育 音乐教育 幼儿园教育 中教教育 教育理论 教育管理 中等教育 教育教学 成人教育 艺术教育 影视教育 特殊教育 心理学教育 师范教育 语文教育 研究生论文 化学教育 图书馆论文 文教资料 其他教育
医学论文
医学护理 医学检验 药学论文 畜牧兽医 中医学 临床医学 外科学 内科学 生物制药 基础医学 预防卫生 肿瘤论文 儿科学论文 妇产科 遗传学 其他医学
经济论文
国际贸易 市场营销 财政金融 农业经济 工业经济 财务审计 产业经济 交通运输 房地产经济 微观经济学 政治经济学 宏观经济学 西方经济学 其他经济 发展战略论文 国际经济 行业经济 证券投资论文 保险经济论文
法学论文
民法 国际法 刑法 行政法 经济法 宪法 司法制度 法学理论 其他法学
计算机论文
计算机网络 软件技术 计算机应用 信息安全 信息管理 智能科技 应用电子技术 通讯论文
会计论文
预算会计 财务会计 成本会计 会计电算化 管理会计 国际会计 会计理论 会计控制 审计会计
文学论文
中国哲学 艺术理论 心理学 伦理学 新闻 美学 逻辑学 音乐舞蹈 喜剧表演 广告学 电视电影 哲学理论 世界哲学 文史论文 美术论文
管理论文
行政管理论文 工商管理论文 市场营销论文 企业管理论文 成本管理论文 人力资源论文 项目管理论文 旅游管理论文 电子商务管理论文 公共管理论文 质量管理论文 物流管理论文 经济管理论文 财务管理论文 管理学论文 秘书文秘 档案管理
社科论文
三农问题 环境保护 伦理道德 城镇建设 人口生育 资本主义 科技论文 社会论文 工程论文 环境科学