欢迎光临112期刊网!
网站首页 > 论文范文 > 计算机论文 > 计算机应用 > 基于生物医学文献的蛋白质关系发现

基于生物医学文献的蛋白质关系发现

日期:2023-01-24 阅读量:0 所属栏目:计算机应用


作者:彭春艳 张晖 包玲玉 陈昌平

  论文关键词:知识发现 生物命名实体识别 实体关联

  论文摘要:实验提出了一种基于词频统计的蛋白质关系知识发现方法.该方法首先通过生物命名实体识别技术识别出蛋白质实体.然后统计共出现频率,形成候选实体对,从而发现最有可能的实体关联。

  1引言

  分子生物学研究的飞速发展,使生物医学文献呈指数级增长。如此多的文献资源,为科研人员运用数据挖掘和文本挖掘技术,发现隐含的、有价值的知识提供了有利的条件。

  由于大多数的生物信息都保存在文本中。因此对生物医学的研究一般采用文本挖掘技术。文本挖掘是一个交叉的研究领域,它涉及了数据挖掘、信息检索、自然语言处理等多个研究领域的内容。利用文本挖掘技术,可以发现许多有用的信息。一些科研人员利用文本挖掘工具,发现了许多对人类有用的知识,例如:鱼肝油可治疗雷诺式症、蛋白质之间的相互作用等。另外,从生物医学文献中抽取蛋白质基因1相互作用关系对蛋白质知识网络的建立、蛋白质关系预测以及辅助新药的研制等都具有重要的意义。

  2相关研究

  生物医学的知识发现,一般针对文献进行研究。基于文献的知识发现,主要有基于统计、关联规则、信息测度和基于语义的方法。华盛顿大学的swanson教授提出了基于单词的词频统计方法。首先统计出共出现的单词的频率,然后对文献集进行分析。通过这种方法,swanson发现了许多对人类有益的知识。例如,鱼肝油对于雷诺氏症的治疗作用,镁的缺失会引起偏头痛,某些病毒可以成为潜在的生化武器等等,这些发现都得到了临床上的证实。

  hristovski日将关联规则挖掘引入了基于文献的知识发现。他将生物文献看作数据库中的事务,而用来代表文献内容的词则看作是规则中的项,通过设置支持度阈值和置信度阈值来产生关联的词汇。wren为词汇间具有信息的关联。他使用互信息方法来计算词的关联度,通过互信息值的大小来表示关联的强度。他的方法具有领域无关的特性,可以用来推广到很多的研究领域。

  weebeilq等人设计了一个文本挖掘工具dad系统。它利用自然语言处理系统metamap将文献中的语句映射为umls本体中的生物概念。用概念来取代词汇作为知识发现的基础。该方法实现了语义层次上的知识发现。他们利用dad系统找出了生姜潜在的医疗作用。在关联规则挖掘中,有效阈值的设定很困难。如果阈值设置的过低,会产生大量的候选规则,而设置的过高,则有可能过滤掉许多有意义的规则。另外,基于语义的方法,需要构建领域本体,这需要许多专业人士的共同参与。因此,本文在swanson的理论基础提出了一种基于命名实体的词频统计方法,该方法通过实体提取、句子分析等过程发现蛋白质之间潜在的关系。该方法阈值的设定对实验结果影响不大,而且不需要领域专家的参与。

  3方法描述

  本文实现了一个蛋白质知识发现系统。该系统使用medline中随机生成的2000篇摘要进行分析。系统首先对语料进行蛋白质实体识别,形成蛋白质实体列表,然后对句中的每个蛋白质实体对进行共出现频率统计,进而生成候选实体对,最后找出最高出现频率的实体对,从而发现最可能的实体关联。该系统的框架如图1所示。

  3.1蛋白质实体识别

  在对生物医学领域的文本挖掘中,实体识别的目的是对文本中的专业词汇,包括基因、蛋白质、dna和rna等加以确认和分类。对蛋白质的知识发现,第一步就是进行蛋白质实体的识别。实验采用了一种基于条件随机域的生物实体识别方法,该方法以mallet工具为基础,并增加了单词的数字、字母、以及距离依赖特性。

  3.2共出现频率分析

  文献挖掘有不同层次的分析单元,如单词、短语、句子、摘要或者全文。对于实体共出现频率而言,以句子为最大分析单元式最合理的选择。如果两个实体对象同时出现在一个句子中,那么就称为实体共出现,而这两个实体称为共出现实体。通过文本挖掘方法处理大批的文献,提取得到共出现实体,统计它们的总数并计算出实体共出现频率。如果两个实体对象的共出现频率很高,表明这两个实体对象经常被同时提及,这暗示着这两个实体对象之间存在关联的可能性较高。相反,如果实体对象的功出现频率很低那么这两个实体对象之间存在关联的可能性就较低。实验主要针对蛋白质实体.因此只讨论蛋白质一蛋白质实体的共出现频率。

  3.3关系挖掘

  通过计算共出现实体在所有句子中的出现频率,提取关联实体。根据设定不同的最低共出现频率阈值,得到不同可靠程度的存在关联的实体数据,从而发现最有可能存在关联的蛋白质一蛋白质实体对象。

  4实验

  4.1实验数据集

  本实验以从medline中随机新选的2000篇摘要为语料,实验数据统计见表1。

  4.2实验结果

  实验采用条件随机域模型进行实体识别,通过计算共出现频率形成候选实体对。实验结果详见表2。其中,“过滤”指忽略低于指定频率的共出现实体.在这里,指定频率为5。

  5结束语

  随着数据挖掘和文本挖掘技术的进步,生物医学文献挖掘在生物信息中的应用越来越广泛。以知识发现为目的的文献挖掘以分为提取知识、整合知识以及推导知识。文献挖掘在寻找蛋白质相互作用、发现疾病相关的基因以及注释基因功能等方面得到广泛应用。本文首先识别出蛋白质实体,形成实体列表,然后统计共出现频率,形成候选实体对,从而发现最有可能的实体关联。

  实验采用基于实体识别的共出现频率统计模型,该方法过程简单,不需要领域专家的直接参与。由于实体在句中具有特定的义,因此,如果模型能够融合部分语义特征,进行实体关联动词统计,进而进行共出现频率与关联动词相结合的分析。这是我们今的研究方向。

本文链接:http://www.qk112.com/lwfw/jsjlw/jisuanjiyingyong/245102.html

论文中心更多

发表指导
期刊知识
职称指导
论文百科
写作指导
论文指导
论文格式 论文题目 论文开题 参考文献 论文致谢 论文前言
教育论文
美术教育 小学教育 学前教育 高等教育 职业教育 体育教育 英语教育 数学教育 初等教育 音乐教育 幼儿园教育 中教教育 教育理论 教育管理 中等教育 教育教学 成人教育 艺术教育 影视教育 特殊教育 心理学教育 师范教育 语文教育 研究生论文 化学教育 图书馆论文 文教资料 其他教育
医学论文
医学护理 医学检验 药学论文 畜牧兽医 中医学 临床医学 外科学 内科学 生物制药 基础医学 预防卫生 肿瘤论文 儿科学论文 妇产科 遗传学 其他医学
经济论文
国际贸易 市场营销 财政金融 农业经济 工业经济 财务审计 产业经济 交通运输 房地产经济 微观经济学 政治经济学 宏观经济学 西方经济学 其他经济 发展战略论文 国际经济 行业经济 证券投资论文 保险经济论文
法学论文
民法 国际法 刑法 行政法 经济法 宪法 司法制度 法学理论 其他法学
计算机论文
计算机网络 软件技术 计算机应用 信息安全 信息管理 智能科技 应用电子技术 通讯论文
会计论文
预算会计 财务会计 成本会计 会计电算化 管理会计 国际会计 会计理论 会计控制 审计会计
文学论文
中国哲学 艺术理论 心理学 伦理学 新闻 美学 逻辑学 音乐舞蹈 喜剧表演 广告学 电视电影 哲学理论 世界哲学 文史论文 美术论文
管理论文
行政管理论文 工商管理论文 市场营销论文 企业管理论文 成本管理论文 人力资源论文 项目管理论文 旅游管理论文 电子商务管理论文 公共管理论文 质量管理论文 物流管理论文 经济管理论文 财务管理论文 管理学论文 秘书文秘 档案管理
社科论文
三农问题 环境保护 伦理道德 城镇建设 人口生育 资本主义 科技论文 社会论文 工程论文 环境科学