欢迎光临112期刊网!
网站首页 > 论文范文 > 计算机论文 > 计算机应用 > 浅谈搜索引擎技术

浅谈搜索引擎技术

日期:2023-01-24 阅读量:0 所属栏目:计算机应用


摘 要:本文阐述了搜索引擎的工作流程和原理,介绍了搜索引擎未来发展趋势。

关键词:搜索引擎;趋势

互联网作为一个个人平台在人们的日常生活和工作中发挥着越来越重要的作用,人们越来越多地通过互联网获取信息。在互联网发展初期,网站相对较少,网页数量也少,因而信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,搜索引擎正是为了解决这个问题而出现的技术。
     搜索引擎(Search Engine简称SE)是一个信息处理系统,指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。

      
  搜索引擎的工作流程包括信息搜集、预处理、服务。

1.信息的搜集
  搜索引擎从网站提取信息建立网页数据库。由于互联网中超链接应用很普遍,每个独立的搜索引擎都有自己的网页抓取程序,抓取程序顺着网页中的超链接,连续地抓取网页。这里面也分为两种,一种是定期搜索,即每隔一段时间(Google一般是28天,百度一个月两次),搜索引擎主动派出“蜘蛛”(Spider)程序,或“爬虫”(Crawler)程序,或“机器人”(Robot)程序,对于一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。另一种是网站拥有者主动向搜索引擎提交网址,它在一定的时间内,定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库。当然主动提交网址并不保证你的网站能进入搜索引擎数据库,因此最好多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。
2.预处理
    搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中最重要的就是①提取关键词,对一篇网页来说,有效词语量在200个左右;②建立索引文件,索引文件的建立一定要有利于快速检索。其它还包括去除重复网页、中文分词、判断网页类型、分析超链接、计算网页的重要度等。
3.服务
    用户输入关键词进行检索,搜索引擎从索引数据加中找到匹配该关键词的网页。当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法───通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等,计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。
  
  搜索引擎主要技术分类
  图片搜索引擎
  图片搜索引擎是全新的搜索引擎,目前国内有安图搜。基于图像形式特征的抽取,由图像分析软件自动抽取图像的颜色、形状、纹理等特征,建立特征索引库,用户只需将要查找的图像的大致特征描述出来,就可以找出与之具有相近特征的图像。这是一种基于图像特征层次的机械匹配,特别适用于检索目标明确的查询要求(例如对商标的检索)。
  全文索引引擎
  全文索引引擎从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。   国外代表有Google,国内知名的百度搜索。
  目录索引引擎
  目录索引是按目录分类的网站链接列表。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。最具代表性新浪、Yahoo分类目录搜索。
  元搜索引擎
  元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。
  垂直搜索引擎
  垂直搜索引擎为2006年后逐步兴起的一类搜索引擎。它专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等等),在其特定的搜索领域有更好的用户体验。它的硬件成本低、用户需求特定、查询的方式多样。

  搜索引擎的发展趋势
(1) 提高搜索引擎对用户提问的理解
  提高搜索引擎对用户检索提问的理解,就要有一个良好的检索提问语言。为了克服关键词检索和目录查询的缺点,现在出现了自然语言智能答询。如“怎样杀计算机病毒”,如果用关键词查询,会用“病毒”来检索,必定会产生许多象各类病毒的介绍,病毒的产生等无用的信息,而用“怎样杀计算机病毒”检索,会将怎样杀死计算机病毒的信息提供给用户,提高了检索效率。
(2) 提供更优化的检索结果
  搜索引擎优化(Search Engine Optimization,简称SEO)是一种利用搜索引擎的搜索规则来提高目的网站在有关搜索引擎内的排名的方式。是针对搜索引擎对网页的检索特点,让网站建设各项基本要素适合搜索引擎的检索原则,从而使搜索引擎收录尽可能多的网页,并在搜索引擎自然检索结果中排名靠前,最终达到网站推广的目的。有些搜索引擎利用人工智能算法,可达到目前搜索引擎的缺乏的简易人工互动模型。
  总之,未来的搜索引擎支持多语言搜索,并且信息量更大,搜索速度更快,搜索精度更高,更能满足用户个性化信息查询需求。

参考文献:
[1] 赵杰. 搜索引擎技术. 哈尔滨工程大学出版社,2007。
[2] 李晓明,闫宏飞,王继民. 搜索引擎. 科学出版社,2004。
[3] 李远明. 试析搜索引擎技术及其未来发展趋势. 情报杂志2002年21卷7期,2002年。

本文链接:http://www.qk112.com/lwfw/jsjlw/jisuanjiyingyong/241341.html

论文中心更多

发表指导
期刊知识
职称指导
论文百科
写作指导
论文指导
论文格式 论文题目 论文开题 参考文献 论文致谢 论文前言
教育论文
美术教育 小学教育 学前教育 高等教育 职业教育 体育教育 英语教育 数学教育 初等教育 音乐教育 幼儿园教育 中教教育 教育理论 教育管理 中等教育 教育教学 成人教育 艺术教育 影视教育 特殊教育 心理学教育 师范教育 语文教育 研究生论文 化学教育 图书馆论文 文教资料 其他教育
医学论文
医学护理 医学检验 药学论文 畜牧兽医 中医学 临床医学 外科学 内科学 生物制药 基础医学 预防卫生 肿瘤论文 儿科学论文 妇产科 遗传学 其他医学
经济论文
国际贸易 市场营销 财政金融 农业经济 工业经济 财务审计 产业经济 交通运输 房地产经济 微观经济学 政治经济学 宏观经济学 西方经济学 其他经济 发展战略论文 国际经济 行业经济 证券投资论文 保险经济论文
法学论文
民法 国际法 刑法 行政法 经济法 宪法 司法制度 法学理论 其他法学
计算机论文
计算机网络 软件技术 计算机应用 信息安全 信息管理 智能科技 应用电子技术 通讯论文
会计论文
预算会计 财务会计 成本会计 会计电算化 管理会计 国际会计 会计理论 会计控制 审计会计
文学论文
中国哲学 艺术理论 心理学 伦理学 新闻 美学 逻辑学 音乐舞蹈 喜剧表演 广告学 电视电影 哲学理论 世界哲学 文史论文 美术论文
管理论文
行政管理论文 工商管理论文 市场营销论文 企业管理论文 成本管理论文 人力资源论文 项目管理论文 旅游管理论文 电子商务管理论文 公共管理论文 质量管理论文 物流管理论文 经济管理论文 财务管理论文 管理学论文 秘书文秘 档案管理
社科论文
三农问题 环境保护 伦理道德 城镇建设 人口生育 资本主义 科技论文 社会论文 工程论文 环境科学