基于生物医学文献的蛋白质关系发现

日期：2023-01-24 阅读量：0次所属栏目：计算机应用

作者：彭春艳　张晖　包玲玉　陈昌平

　　论文关键词：知识发现　生物命名实体识别　实体关联

　　论文摘要：实验提出了一种基于词频统计的蛋白质关系知识发现方法．该方法首先通过生物命名实体识别技术识别出蛋白质实体．然后统计共出现频率，形成候选实体对，从而发现最有可能的实体关联。

　　1引言

　　分子生物学研究的飞速发展，使生物医学文献呈指数级增长。如此多的文献资源，为科研人员运用数据挖掘和文本挖掘技术，发现隐含的、有价值的知识提供了有利的条件。

　　由于大多数的生物信息都保存在文本中。因此对生物医学的研究一般采用文本挖掘技术。文本挖掘是一个交叉的研究领域，它涉及了数据挖掘、信息检索、自然语言处理等多个研究领域的内容。利用文本挖掘技术，可以发现许多有用的信息。一些科研人员利用文本挖掘工具，发现了许多对人类有用的知识，例如：鱼肝油可治疗雷诺式症、蛋白质之间的相互作用等。另外，从生物医学文献中抽取蛋白质基因1相互作用关系对蛋白质知识网络的建立、蛋白质关系预测以及辅助新药的研制等都具有重要的意义。

　　2相关研究

　　生物医学的知识发现，一般针对文献进行研究。基于文献的知识发现，主要有基于统计、关联规则、信息测度和基于语义的方法。华盛顿大学的swanson教授提出了基于单词的词频统计方法。首先统计出共出现的单词的频率，然后对文献集进行分析。通过这种方法，swanson发现了许多对人类有益的知识。例如，鱼肝油对于雷诺氏症的治疗作用，镁的缺失会引起偏头痛，某些病毒可以成为潜在的生化武器等等，这些发现都得到了临床上的证实。

　　hristovski日将关联规则挖掘引入了基于文献的知识发现。他将生物文献看作数据库中的事务，而用来代表文献内容的词则看作是规则中的项，通过设置支持度阈值和置信度阈值来产生关联的词汇。wren为词汇间具有信息的关联。他使用互信息方法来计算词的关联度，通过互信息值的大小来表示关联的强度。他的方法具有领域无关的特性，可以用来推广到很多的研究领域。

　　weebeilq等人设计了一个文本挖掘工具dad系统。它利用自然语言处理系统metamap将文献中的语句映射为umls本体中的生物概念。用概念来取代词汇作为知识发现的基础。该方法实现了语义层次上的知识发现。他们利用dad系统找出了生姜潜在的医疗作用。在关联规则挖掘中，有效阈值的设定很困难。如果阈值设置的过低，会产生大量的候选规则，而设置的过高，则有可能过滤掉许多有意义的规则。另外，基于语义的方法，需要构建领域本体，这需要许多专业人士的共同参与。因此，本文在swanson的理论基础提出了一种基于命名实体的词频统计方法，该方法通过实体提取、句子分析等过程发现蛋白质之间潜在的关系。该方法阈值的设定对实验结果影响不大，而且不需要领域专家的参与。

　　3方法描述

　　本文实现了一个蛋白质知识发现系统。该系统使用medline中随机生成的2000篇摘要进行分析。系统首先对语料进行蛋白质实体识别，形成蛋白质实体列表，然后对句中的每个蛋白质实体对进行共出现频率统计，进而生成候选实体对，最后找出最高出现频率的实体对，从而发现最可能的实体关联。该系统的框架如图1所示。

　　3．1蛋白质实体识别

　　在对生物医学领域的文本挖掘中，实体识别的目的是对文本中的专业词汇，包括基因、蛋白质、dna和rna等加以确认和分类。对蛋白质的知识发现，第一步就是进行蛋白质实体的识别。实验采用了一种基于条件随机域的生物实体识别方法，该方法以mallet工具为基础，并增加了单词的数字、字母、以及距离依赖特性。

　　3．2共出现频率分析

　　文献挖掘有不同层次的分析单元，如单词、短语、句子、摘要或者全文。对于实体共出现频率而言，以句子为最大分析单元式最合理的选择。如果两个实体对象同时出现在一个句子中，那么就称为实体共出现，而这两个实体称为共出现实体。通过文本挖掘方法处理大批的文献，提取得到共出现实体，统计它们的总数并计算出实体共出现频率。如果两个实体对象的共出现频率很高，表明这两个实体对象经常被同时提及，这暗示着这两个实体对象之间存在关联的可能性较高。相反，如果实体对象的功出现频率很低那么这两个实体对象之间存在关联的可能性就较低。实验主要针对蛋白质实体．因此只讨论蛋白质一蛋白质实体的共出现频率。

　　3．3关系挖掘

　　通过计算共出现实体在所有句子中的出现频率，提取关联实体。根据设定不同的最低共出现频率阈值，得到不同可靠程度的存在关联的实体数据，从而发现最有可能存在关联的蛋白质一蛋白质实体对象。

　　4实验

　　4．1实验数据集

　　本实验以从medline中随机新选的2000篇摘要为语料，实验数据统计见表1。

　　4．2实验结果

　　实验采用条件随机域模型进行实体识别，通过计算共出现频率形成候选实体对。实验结果详见表2。其中，“过滤”指忽略低于指定频率的共出现实体．在这里，指定频率为5。

　　5结束语

　　随着数据挖掘和文本挖掘技术的进步，生物医学文献挖掘在生物信息中的应用越来越广泛。以知识发现为目的的文献挖掘以分为提取知识、整合知识以及推导知识。文献挖掘在寻找蛋白质相互作用、发现疾病相关的基因以及注释基因功能等方面得到广泛应用。本文首先识别出蛋白质实体，形成实体列表，然后统计共出现频率，形成候选实体对，从而发现最有可能的实体关联。

　　实验采用基于实体识别的共出现频率统计模型，该方法过程简单，不需要领域专家的直接参与。由于实体在句中具有特定的义，因此，如果模型能够融合部分语义特征，进行实体关联动词统计，进而进行共出现频率与关联动词相结合的分析。这是我们今的研究方向。

本文链接：http://www.qk112.com/lwfw/jsjlw/jisuanjiyingyong/245102.html

上一篇：关于计算机信息安全策略的维度思考研究

下一篇：Outline the TTS system and the process of speech synthesis

期刊推荐

论文中心 更多

发表指导
期刊知识
职称指导
论文百科
写作指导
论文指导: 论文格式论文题目论文开题参考文献论文致谢论文前言
教育论文: 美术教育小学教育学前教育高等教育职业教育体育教育英语教育数学教育初等教育音乐教育幼儿园教育中教教育教育理论教育管理中等教育教育教学成人教育艺术教育影视教育特殊教育心理学教育师范教育语文教育研究生论文化学教育图书馆论文文教资料其他教育
医学论文: 医学护理医学检验药学论文畜牧兽医中医学临床医学外科学内科学生物制药基础医学预防卫生肿瘤论文儿科学论文妇产科遗传学其他医学
经济论文: 国际贸易市场营销财政金融农业经济工业经济财务审计产业经济交通运输房地产经济微观经济学政治经济学宏观经济学西方经济学其他经济发展战略论文国际经济行业经济证券投资论文保险经济论文
法学论文: 民法国际法刑法行政法经济法宪法司法制度法学理论其他法学
计算机论文: 计算机网络软件技术计算机应用信息安全信息管理智能科技应用电子技术通讯论文
会计论文: 预算会计财务会计成本会计会计电算化管理会计国际会计会计理论会计控制审计会计
文学论文: 中国哲学艺术理论心理学伦理学新闻美学逻辑学音乐舞蹈喜剧表演广告学电视电影哲学理论世界哲学文史论文美术论文
管理论文: 行政管理论文工商管理论文市场营销论文企业管理论文成本管理论文人力资源论文项目管理论文旅游管理论文电子商务管理论文公共管理论文质量管理论文物流管理论文经济管理论文财务管理论文管理学论文秘书文秘档案管理
社科论文: 三农问题环境保护伦理道德城镇建设人口生育资本主义科技论文社会论文工程论文环境科学

基于生物医学文献的蛋白质关系发现

相关文章

期刊推荐

论文中心 更多

计算机应用排行