欢迎光临112期刊网!
网站首页 > 论文范文 > 文学论文 > 逻辑学 > 网络蜘蛛及WEB文档解析

网络蜘蛛及WEB文档解析

日期:2022-12-01 阅读量:0 所属栏目:逻辑学


摘 要:

关键词:

      网络蜘蛛(Web Spider)是一个形象的名字,它把因特网比喻成一个蜘蛛网,那么Spider就是在网上觅食的蜘蛛。网络蜘蛛通过WEB文档中的链接地址来寻找WEB文档,从网站某一个页面开始读取文档的内容,找到在WEB文档中的下一级链接地址,然后通过这些链接地址寻找更下一层的WEB文档,这样循环直到将此网站的WEB文档资源都搜寻完为止。
      1 网络蜘蛛的抓取策略
      在抓取WEB文档的时候,网络蜘蛛一般有两种策略:广度优先和深度优先。在实际应用中通常并非要抓取全部的WEB文档,对一些不太重要的网站,可以设置访问的层数,对于超过一定层数的WEB文档不再抓取。
      2 WEB文档的种类及在信息提取中的价值
      基于内容文本的WEB数据挖掘的处理对象是文本文件。对于WEB文档内容的提取,一直是网络蜘蛛中重要的技术。整个系统一般采用基于插件的可扩展模式,通过一个插件程序,对各格式的WEB文档采用相应的插件处理。这种模式的优点在于扩充性好,以后每新增一种新的类型,就可以把其处理方式做成一个插件补充到插件管理服务程序之中。
      3 HTML结构化解析
      在网络蜘蛛的实现时,我们采用广度优先链接跟踪法解析HTML。要提取WEB文档中的链接和文本,首要对HTML进行解析,将HTML字符流变为由HTML标签系列组成的结构化文档。Sun公司开发的HTML解析器能够处理绝大部分HTML解析任务。下面是Sun的HTML解析器的主要功能部件。
      (1) 类
      它是最重要的一个HTML解析类,是一个内部类,声明如下:
      :
      public abstract static class extends Object
      由于它是一个抽象类,因此真正的解析工作是由它具体的子类的实例来完成,这个子类是Delegator:
public class ParserDelegator extends
      当解析一个HTML文件时,需要实现一个Callback的子类,由它来按照要求对文本和标签做出处理。然后将它的实例传给的parse()方法。parse()是类的唯一public方法。所有的工作是由Callback子类的回调方法来完成。在进行这项工作之前,必须获得一个类的实例,但是它是一个抽象类,其子类Delegator是一个具体类,在能够取用它之前,必须给它配置一个DTD,使用protected static方法。因此创建一个ParserDelegator,需要DTD的一个实例。DTD类有一个protected型的构造器和许多protected方法,这里直接使用,getParser()方法。它是一个protected方法,只需要创建HTMLEditorKit的子类,并用一个public型的getParser()来覆写它。
      现在就可以用它来解析中文WEB文档。这是通过类的parse()方法来完成的。
      (2)Callback类
      ParserCallback是一个public型的内部类,也就是itorKit的内部类。其声明如下:
public static calss Callback extends Objects DTD。它有一个简单的无参数构造器:public Callback()
      但是,要真正执行解析动作,需要实现其子类,并重载6个空的回调方法,执行具体的任务。
      解析器并不是多线程安全的,通常在一个单独的线程中解析。因此,当parse()方法返回时,并不意味着文档被解析了。若使用同一个Callback对象来完成两个独立的解析过程,必须用线程同步机制,保证所有的回调方法都是线程安全的。
      (3) 类
      Tag是一个类的一个public型的内部类。public static class extends Object它含有四个方法:breaksFlow()方法当标签应该产生一个单行分隔时返回true。isBlock()方法当标签应该产生一个双行分隔时返回true。isPreformatted()方法当标签中的空白应该被保留时返回true。有了类,可以根据不同的标签类别,执行不同的操作。
      (4)属性
      处理HTML文件时,经常需要查看标签和属性。HandleStartTag()和handleSimpleTag()回调方法的第二个参数是eAttributeSet类,这个对象允许查看某个标签附属了哪些属性。MutableAttributeSet是uteSet接口的子接口。
      AttributeSet和MutableAttributeSet都代表着HTML标签的属性集。不同的是后者接口增加了添加删除属性方法和属性集的视图。属性本身代表着对,一个代表属性名,另一个代表属性值。
      与一样,属性值是字符串,属性名是ute对象。在提取链接地址时,就需要调用这些方法。在WEB文档所包含的链接信息通常都含有大量的相对URL地址,在进一步访问这些链接地址时则需要绝对地址,因此需要进行转换。
      小结
      本文介绍了实现网络蜘蛛所涉及到的详细算法,并以SUN公司的HTML解析器为例说明了HTML代码解析的整个过程。可以看到整个HTML代码的解析过程是庞大而复杂的。

本文链接:http://www.qk112.com/lwfw/wenxuelunwen/luojixue/24314.html

论文中心更多

发表指导
期刊知识
职称指导
论文百科
写作指导
论文指导
论文格式 论文题目 论文开题 参考文献 论文致谢 论文前言
教育论文
美术教育 小学教育 学前教育 高等教育 职业教育 体育教育 英语教育 数学教育 初等教育 音乐教育 幼儿园教育 中教教育 教育理论 教育管理 中等教育 教育教学 成人教育 艺术教育 影视教育 特殊教育 心理学教育 师范教育 语文教育 研究生论文 化学教育 图书馆论文 文教资料 其他教育
医学论文
医学护理 医学检验 药学论文 畜牧兽医 中医学 临床医学 外科学 内科学 生物制药 基础医学 预防卫生 肿瘤论文 儿科学论文 妇产科 遗传学 其他医学
经济论文
国际贸易 市场营销 财政金融 农业经济 工业经济 财务审计 产业经济 交通运输 房地产经济 微观经济学 政治经济学 宏观经济学 西方经济学 其他经济 发展战略论文 国际经济 行业经济 证券投资论文 保险经济论文
法学论文
民法 国际法 刑法 行政法 经济法 宪法 司法制度 法学理论 其他法学
计算机论文
计算机网络 软件技术 计算机应用 信息安全 信息管理 智能科技 应用电子技术 通讯论文
会计论文
预算会计 财务会计 成本会计 会计电算化 管理会计 国际会计 会计理论 会计控制 审计会计
文学论文
中国哲学 艺术理论 心理学 伦理学 新闻 美学 逻辑学 音乐舞蹈 喜剧表演 广告学 电视电影 哲学理论 世界哲学 文史论文 美术论文
管理论文
行政管理论文 工商管理论文 市场营销论文 企业管理论文 成本管理论文 人力资源论文 项目管理论文 旅游管理论文 电子商务管理论文 公共管理论文 质量管理论文 物流管理论文 经济管理论文 财务管理论文 管理学论文 秘书文秘 档案管理
社科论文
三农问题 环境保护 伦理道德 城镇建设 人口生育 资本主义 科技论文 社会论文 工程论文 环境科学