欢迎光临112期刊网!
网站首页 > 论文范文 > 计算机论文 > 计算机应用 > 数据挖掘技术在Web信息检索中的应用研究

数据挖掘技术在Web信息检索中的应用研究

日期:2023-01-24 阅读量:0 所属栏目:计算机应用


  [摘要]将数据挖掘技术应用到Web信息检索中,可以使网络信息检索更加准确化和智能化。介绍了Web数据挖掘的概念,分析了Web数据挖掘在Web信息检索中的应用,最后对Web信息检索未来发展进行了展望。


  [关键词]数据挖掘;Web信息检索;搜索引擎


  [中图分类号]P209[文献标志码]A[文章编号]2096-0603(2017)29-0033-01


  Web现已成为一个巨大的知识库、信息库,Web信息检索通过搜索引擎返回给用户成千上万个检索到的网页,但是满足用户检索要求的网页却凤毛麟角,用户无法在第一时间得到满足要求的有价值信息。因此,Web信息检索的精度不能为客户提供准而精的检索信息,需要检索精度更高的数据挖掘技术。


  所谓数据挖掘(DataMining)就是从海量的原始数据中提取信息和知识的过程,这些信息和知识隐含在原始数据中,事先未知,但是对用户来说是很有用的。


  一般的数据挖掘对象是结构化数据,而Web数据挖掘的对象是非结构化数据,在现有数据挖掘研究成果的基础上,运用Web数据挖掘技术,可以提高信息检索的精准率和有效率,Web信息检索将会达到向一个新的高度。


  一、Web数据挖掘技术概述


  Web数据挖掘是一项综合技术,是从WWW资源上抽取信息(或知识)的过程,是对Web资源中蕴涵的未知的有潜在应用价值的模式的提取[1]。按挖掘对象来分类,基于Web的数据挖掘分为3大类:基于Web内容的挖掘(WebContentMining)、基于WEB结构的挖掘(WebStructureMining)、基于WEB使用的挖掘(WebUsageMining)。


  (一)基于Web内容的挖掘


  基于Web内容的挖掘,是在Web文档以及相应的Web文档描述中获取知识。目前,WWW信息资源是网络信息资源的主要组成部分,用户直接从网上抓取这些资源,并为之建立索引,从而实现查询服务,而那些被隐藏起来的数据,用户无法进行有效的检索,这就迫使我们把这些被隐藏的内容(比如数据库系统中的数据,由用户的提问而动态生成的结果等)挖掘出来。此外,Web的信息内容是由文本、音频、视频、图片等非结构化的数据,因此基于Web内容的挖掘也是一种针对多媒体数据的挖掘[2]。


  (二)基于Web结构的挖掘


  基于Web结构的挖掘,主要挖掘Web潜在的链接结构模式,是从网页上的相互链接和万维网的整体结构中发现知识的过程。这种模式主要采用网页归类技术,在众多的网页中获得不同网页间的信息,比如相似度及关联度。Web结构挖掘主要是帮助用户找到所需要信息的权威站點,同时也会对Web信息检索结果的排序产生影响。


  (三)基于Web使用的挖掘


  基于Web使用的挖掘,也可以称之为WebLogMining,Web日志挖掘,用户在进行网络访问后,会留下一些重要的第二手数据,它们是Web使用挖掘的主要对象,从而分析用户的网络行为提供依据。


  二、Web数据挖掘在Web信息检索中的应用


  (一)对Web信息源进行挖掘,形成信息源知识库


  对Web信息源内容的挖掘,主要是针对中多媒体数据等Web信息源的内容的特征进行挖掘,统计方法、机器学习、神经网络、人工智能是最常使用的方法,通过抽取、分类、聚类网页内容的特征,形成信息源知识库。


  对Web信息源结构的挖掘,主要通过相关算法对Web页面的超链接关系、URL地址结构的进行挖掘,在Web的组织结构和链接关系中发现知识。


  (二)对Web结构进行挖掘,形成权威网页


  搜索引擎的作用主要有两个,一是搜索与主题相关的内容,二是筛选高水平的相关网页,就是我们所说的权威网页。第二个作用尤其重要,因为用户更希望他们最需要的信息能在最短的时间内呈现在他们面前,而不是浪费大量的精力和时间从大量的检索结果中找寻最需要的信息,采用Web结构挖掘的一些经典算法就能很好地识别出权威网页。


  (三)对用户的访问模式进行分析,为用户提供更加人性化的服务


  用户在进行信息检索时,会在网站上留下许多信息,比如检索的时间、检索词以及浏览了哪些检索结果等。基于Web使用的挖掘可以对其进行分析,采用各种算法对这些日志展开挖掘,从而延伸出更有价值的内容,形成用户知识模型,并对用户潜在相同的检索行为模式进行归纳总结,对这些模式进行系统的研究,对搜索引擎的检索效果进行反馈,从而改进搜索引擎,让检索结果更加智能化,使单个用户感觉使用Web信息检索更高效。


  总之,随着互联网的发展,数据挖掘的一个主要应用领域就是Web数据挖掘,与Web信息检索有着密切的关系,但是又比Web信息检索有着更高的技术层次,可以使基于Web的信息检索发展到一个更高的水平。


  作者:屈慧洁

    参考文献: 

  [1]韩家炜,孟小峰,王静,等.WEB挖掘研究[J].计算机研究与发展,2001,38(4):405-414. 

  [2]涂承胜,鲁明羽,陆玉昌.Web内容挖掘技术研究[J].计算机应用研究,2003,20(11):5-9. 

本文链接:http://www.qk112.com/lwfw/jsjlw/jisuanjiyingyong/240722.html

论文中心更多

发表指导
期刊知识
职称指导
论文百科
写作指导
论文指导
论文格式 论文题目 论文开题 参考文献 论文致谢 论文前言
教育论文
美术教育 小学教育 学前教育 高等教育 职业教育 体育教育 英语教育 数学教育 初等教育 音乐教育 幼儿园教育 中教教育 教育理论 教育管理 中等教育 教育教学 成人教育 艺术教育 影视教育 特殊教育 心理学教育 师范教育 语文教育 研究生论文 化学教育 图书馆论文 文教资料 其他教育
医学论文
医学护理 医学检验 药学论文 畜牧兽医 中医学 临床医学 外科学 内科学 生物制药 基础医学 预防卫生 肿瘤论文 儿科学论文 妇产科 遗传学 其他医学
经济论文
国际贸易 市场营销 财政金融 农业经济 工业经济 财务审计 产业经济 交通运输 房地产经济 微观经济学 政治经济学 宏观经济学 西方经济学 其他经济 发展战略论文 国际经济 行业经济 证券投资论文 保险经济论文
法学论文
民法 国际法 刑法 行政法 经济法 宪法 司法制度 法学理论 其他法学
计算机论文
计算机网络 软件技术 计算机应用 信息安全 信息管理 智能科技 应用电子技术 通讯论文
会计论文
预算会计 财务会计 成本会计 会计电算化 管理会计 国际会计 会计理论 会计控制 审计会计
文学论文
中国哲学 艺术理论 心理学 伦理学 新闻 美学 逻辑学 音乐舞蹈 喜剧表演 广告学 电视电影 哲学理论 世界哲学 文史论文 美术论文
管理论文
行政管理论文 工商管理论文 市场营销论文 企业管理论文 成本管理论文 人力资源论文 项目管理论文 旅游管理论文 电子商务管理论文 公共管理论文 质量管理论文 物流管理论文 经济管理论文 财务管理论文 管理学论文 秘书文秘 档案管理
社科论文
三农问题 环境保护 伦理道德 城镇建设 人口生育 资本主义 科技论文 社会论文 工程论文 环境科学