论文范文分类中国哲学艺术理论心理学伦理学新闻美学逻辑学音乐舞蹈喜剧表演广告学电视电影哲学理论世界哲学文史论文美术论文

网络蜘蛛及WEB文档解析

日期：2022-12-01 阅读量：0次所属栏目：逻辑学

摘　要：

关键词：

      网络蜘蛛（Web Spider）是一个形象的名字，它把因特网比喻成一个蜘蛛网，那么Spider就是在网上觅食的蜘蛛。网络蜘蛛通过WEB文档中的链接地址来寻找WEB文档，从网站某一个页面开始读取文档的内容，找到在WEB文档中的下一级链接地址，然后通过这些链接地址寻找更下一层的WEB文档，这样循环直到将此网站的WEB文档资源都搜寻完为止。
      1 网络蜘蛛的抓取策略
      在抓取WEB文档的时候，网络蜘蛛一般有两种策略：广度优先和深度优先。在实际应用中通常并非要抓取全部的WEB文档，对一些不太重要的网站，可以设置访问的层数，对于超过一定层数的WEB文档不再抓取。
      2 WEB文档的种类及在信息提取中的价值
      基于内容文本的WEB数据挖掘的处理对象是文本文件。对于WEB文档内容的提取，一直是网络蜘蛛中重要的技术。整个系统一般采用基于插件的可扩展模式，通过一个插件程序，对各格式的WEB文档采用相应的插件处理。这种模式的优点在于扩充性好，以后每新增一种新的类型，就可以把其处理方式做成一个插件补充到插件管理服务程序之中。
      3 HTML结构化解析
      在网络蜘蛛的实现时，我们采用广度优先链接跟踪法解析HTML。要提取WEB文档中的链接和文本，首要对HTML进行解析，将HTML字符流变为由HTML标签系列组成的结构化文档。Sun公司开发的HTML解析器能够处理绝大部分HTML解析任务。下面是Sun的HTML解析器的主要功能部件。
      （1）类
      它是最重要的一个HTML解析类，是一个内部类，声明如下：
      :
      public abstract static class extends Object
      由于它是一个抽象类，因此真正的解析工作是由它具体的子类的实例来完成，这个子类是Delegator:
public class ParserDelegator extends
      当解析一个HTML文件时，需要实现一个Callback的子类，由它来按照要求对文本和标签做出处理。然后将它的实例传给的parse()方法。parse()是类的唯一public方法。所有的工作是由Callback子类的回调方法来完成。在进行这项工作之前，必须获得一个类的实例，但是它是一个抽象类，其子类Delegator是一个具体类，在能够取用它之前，必须给它配置一个DTD，使用protected static方法。因此创建一个ParserDelegator，需要DTD的一个实例。DTD类有一个protected型的构造器和许多protected方法，这里直接使用,getParser()方法。它是一个protected方法，只需要创建HTMLEditorKit的子类，并用一个public型的getParser()来覆写它。
      现在就可以用它来解析中文WEB文档。这是通过类的parse()方法来完成的。
      （2）Callback类
      ParserCallback是一个public型的内部类，也就是itorKit的内部类。其声明如下：
public static calss Callback extends Objects DTD。它有一个简单的无参数构造器：public Callback()
      但是，要真正执行解析动作，需要实现其子类，并重载6个空的回调方法，执行具体的任务。
      解析器并不是多线程安全的，通常在一个单独的线程中解析。因此，当parse()方法返回时，并不意味着文档被解析了。若使用同一个Callback对象来完成两个独立的解析过程，必须用线程同步机制，保证所有的回调方法都是线程安全的。
      （3）类
      Tag是一个类的一个public型的内部类。public static class extends Object它含有四个方法：breaksFlow()方法当标签应该产生一个单行分隔时返回true。isBlock()方法当标签应该产生一个双行分隔时返回true。isPreformatted()方法当标签中的空白应该被保留时返回true。有了类，可以根据不同的标签类别，执行不同的操作。
      （4）属性
      处理HTML文件时，经常需要查看标签和属性。HandleStartTag()和handleSimpleTag()回调方法的第二个参数是eAttributeSet类，这个对象允许查看某个标签附属了哪些属性。MutableAttributeSet是uteSet接口的子接口。
      AttributeSet和MutableAttributeSet都代表着HTML标签的属性集。不同的是后者接口增加了添加删除属性方法和属性集的视图。属性本身代表着对，一个代表属性名，另一个代表属性值。
      与一样，属性值是字符串，属性名是ute对象。在提取链接地址时，就需要调用这些方法。在WEB文档所包含的链接信息通常都含有大量的相对URL地址，在进一步访问这些链接地址时则需要绝对地址，因此需要进行转换。
      小结
      本文介绍了实现网络蜘蛛所涉及到的详细算法，并以SUN公司的HTML解析器为例说明了HTML代码解析的整个过程。可以看到整个HTML代码的解析过程是庞大而复杂的。

本文链接：http://www.qk112.com/lwfw/wenxuelunwen/luojixue/24314.html

上一篇：存在的意义——读孟德拉的《不能承受的生命之

下一篇：浅析张（君秋）派京剧艺术

期刊推荐

论文中心 更多

发表指导
期刊知识
职称指导
论文百科
写作指导
论文指导: 论文格式论文题目论文开题参考文献论文致谢论文前言
教育论文: 美术教育小学教育学前教育高等教育职业教育体育教育英语教育数学教育初等教育音乐教育幼儿园教育中教教育教育理论教育管理中等教育教育教学成人教育艺术教育影视教育特殊教育心理学教育师范教育语文教育研究生论文化学教育图书馆论文文教资料其他教育
医学论文: 医学护理医学检验药学论文畜牧兽医中医学临床医学外科学内科学生物制药基础医学预防卫生肿瘤论文儿科学论文妇产科遗传学其他医学
经济论文: 国际贸易市场营销财政金融农业经济工业经济财务审计产业经济交通运输房地产经济微观经济学政治经济学宏观经济学西方经济学其他经济发展战略论文国际经济行业经济证券投资论文保险经济论文
法学论文: 民法国际法刑法行政法经济法宪法司法制度法学理论其他法学
计算机论文: 计算机网络软件技术计算机应用信息安全信息管理智能科技应用电子技术通讯论文
会计论文: 预算会计财务会计成本会计会计电算化管理会计国际会计会计理论会计控制审计会计
文学论文: 中国哲学艺术理论心理学伦理学新闻美学逻辑学音乐舞蹈喜剧表演广告学电视电影哲学理论世界哲学文史论文美术论文
管理论文: 行政管理论文工商管理论文市场营销论文企业管理论文成本管理论文人力资源论文项目管理论文旅游管理论文电子商务管理论文公共管理论文质量管理论文物流管理论文经济管理论文财务管理论文管理学论文秘书文秘档案管理
社科论文: 三农问题环境保护伦理道德城镇建设人口生育资本主义科技论文社会论文工程论文环境科学

网络蜘蛛及WEB文档解析

相关文章

期刊推荐

论文中心 更多

逻辑学排行