欢迎光临112期刊网!
网站首页 > 论文范文 > 管理论文 > 电子商务管理论文 > 基于电子商务网站的WEB内容挖掘

基于电子商务网站的WEB内容挖掘

日期:2023-01-05 阅读量:0 所属栏目:电子商务管理论文


[摘要] 随着网络技术的迅速发展,电子商务行业正处以一个高速发展的时期,各类商务网站也应运而生。如何从繁多的商务网站数据中获得有用的信息就成了一件亟需解决的问题。本文分析了web内容挖掘在电子商务网站中的应用以及如何获得数据源。
  [关键词] 电子商务网站 web内容挖掘 数据源
  
  一、引言
  对于电子商务网站来说,internet上储存了大量的文档、图像、声音等非结构化的数据及信息,并且用户群体也显示出多样性,也就是说每个浏览网站的人,他们的需求、兴趣以及浏览目的各不相同。一个稍具规模的电子商务网站每天处理的业务成千上万,那么如何从这些数据中找到有用的信息,帮助电子商务的经营者和研究者从海量的web数据中得到真正有价值的信息,以指导他们做出管理上的决策。就是一个非常重要而有意义的事情。
  二、爬虫和web内容挖掘
  挖掘的典型分类
  在目前的研究中, web数据挖掘分为:web内容挖掘(web content mining)、web使用(访问信息)挖掘(web usage mining)、web结构挖掘(web structure mining)三种典型的类型。
  (1)web内容挖掘主要是对站点的web页面内容进行挖掘。目前,大多数研究主要集中在如何对网站上的文本以及多媒体数据进行分类以提高数据挖掘的有效性,很少涉及到如何从网站上进行数据的采集以及分析。
  (2)web结构挖掘主要是对web文档的结构进行挖掘,通过一定的算法来发现给定的web文档之间的链接情况,从而得到比较重要的页面,以向浏览网站的用户提供权威页面。
  (3)web使用(访问信息)挖掘主要是对用户访问web时在服务器方留下的访问记录,也就是用户访问web站点的存取方式进行挖掘。它通过挖掘相关的web日志记录,来发现用户访问web页面的模式。目前流行的挖掘手段主要包括:路径分析、关联规则和序列模式的发现、聚类和分类等。
  挖掘的数据源
  在web数据挖掘中存在几种代表性的数据源:
  (1)服务器日志数据。个人浏览web服务器时,在服务器那方就会产生3种类型的日志文件:server logs,error logs和cookie logs,这些日志文件主要是用来保存用户访问的基本情况。所以就成为开展web使用(访问信息)挖掘的主要数据源。但有一点需要注意的是,这些数据是在服务器方生成的,因此有一定的不可获取性,因为这会涉及到商业机密。
  (2)在线市场数据。这类数据主要是跟市场活动有关的信息。在线市场数据是业务数据,是进行业务相关分析的主要数据源。
  (3)web页面。目前的web页面大多满足html标准。html页面中包含文本和多媒体信息,例如图片、图像、语言等,因此涉及到数据挖掘领域中的文本挖掘和多媒体挖掘,目前很多研究都在致力于如何对文本和多媒体信息进行挖掘的算法分析。
  (4)web页面超链接关系。web页面之间的超链接关系是一种重要的资源,网站的设计者总是把他们认为重要的页面添加到自己的页面上来。
  (5)其他数据。除了上述几种重要的数据源外,还有一些其他方面的数据,比如用户注册信息等一系列信息。
  当然,在实际的web数据挖掘中这些数据源并不是孤立使用的,而是几种数据源的综合使用和分析,例如我们要对访问某个电子商务网站的用户购买商品的路径分析的同时还需要知道这些客户群的一些基本信息。


  3.爬虫和web内容挖掘
  由于上述的几种数据源中有一些是在服务器方生成的,比如说日志文件和用户注册信息,并且涉及到商业机密问题,所以在数据源的获得上存在一定的难度。这里,我们可以利用爬虫(crawler)的工作原理,来作为我们进行web内容挖掘的一种信息获取和分析的工具,得到我们需要的数据源。
  (1)爬虫的工作原理。爬虫(crawler)是一个用来分解web中超文本结构的工具。一个商业网站的web页面是通过超链接的关系存在的,就组成了类似一张张的网。网络爬虫是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其他链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络爬虫就可以用这个原理把互联网上所有的网页都抓取下来。
  (2)数据的获得。我们就可以利用上述爬虫的工作原理,从我们需要的信息起始页开始进行爬取数据,得到与之有关的大多数web页面上的信息。
  (3)数据的分析。在对链接页面进行搜索的过程中,经常需要判断信息的属性或分析信息的价值,因为web页面上存储了浩瀚的数据,比如一些广告信息,而有的数据并不是我们需要的。在此,我们可以利用基于正则表达式(regular expression)的词法分析技术对采集到的html代码进行语法分析,提取其中有效信息,例如出售的商品分类、规格、价格、数量、运送方式、运费、出售人、曾经购买过的用户等。
  (4)数据的保存。为了进行最终的挖掘工作,我们需要把经过分析的有效数据最终保存到数据库当中。一般选择大型的数据库管理工具,如sql server2005等。
  (5)进行挖掘。利用数据挖掘技术获取有效的信息,对相关问题模式进行验证。
  三、结束语
  电子商务网站,无论是b/c模式还是c/c的,在网站页面上都保存了大量用户在交易过程中产生的信息,例如商品的规格、价格、展示、售后服务以及运输方式等等,还包括卖家的个人信息、信用情况,根据平台的不同还有相应的支付方式、法律条款等等。那么,利用爬虫技术,我们可以开发出一个获得数据源的有效工具来进行web内容挖掘。
  当然,在现实研究当中,web内容挖掘是和web结构挖掘及web访问信息挖掘结合在一起使用的,它们相互补充,共同来挖掘出有用的信息。
  
  参考文献:
  [1]梁协雄雷汝焕曹长修:现代数据挖掘技术研究进展.重庆大学学报,2004.3:p.21~26
  [2]吴修琴:基于web使用挖掘的个性化服务推荐:河北科技图苑,2007.3
本文链接:http://www.qk112.com/lwfw/guanlilunwen/dianzishangwuguanlilunwen/39751.html

论文中心更多

发表指导
期刊知识
职称指导
论文百科
写作指导
论文指导
论文格式 论文题目 论文开题 参考文献 论文致谢 论文前言
教育论文
美术教育 小学教育 学前教育 高等教育 职业教育 体育教育 英语教育 数学教育 初等教育 音乐教育 幼儿园教育 中教教育 教育理论 教育管理 中等教育 教育教学 成人教育 艺术教育 影视教育 特殊教育 心理学教育 师范教育 语文教育 研究生论文 化学教育 图书馆论文 文教资料 其他教育
医学论文
医学护理 医学检验 药学论文 畜牧兽医 中医学 临床医学 外科学 内科学 生物制药 基础医学 预防卫生 肿瘤论文 儿科学论文 妇产科 遗传学 其他医学
经济论文
国际贸易 市场营销 财政金融 农业经济 工业经济 财务审计 产业经济 交通运输 房地产经济 微观经济学 政治经济学 宏观经济学 西方经济学 其他经济 发展战略论文 国际经济 行业经济 证券投资论文 保险经济论文
法学论文
民法 国际法 刑法 行政法 经济法 宪法 司法制度 法学理论 其他法学
计算机论文
计算机网络 软件技术 计算机应用 信息安全 信息管理 智能科技 应用电子技术 通讯论文
会计论文
预算会计 财务会计 成本会计 会计电算化 管理会计 国际会计 会计理论 会计控制 审计会计
文学论文
中国哲学 艺术理论 心理学 伦理学 新闻 美学 逻辑学 音乐舞蹈 喜剧表演 广告学 电视电影 哲学理论 世界哲学 文史论文 美术论文
管理论文
行政管理论文 工商管理论文 市场营销论文 企业管理论文 成本管理论文 人力资源论文 项目管理论文 旅游管理论文 电子商务管理论文 公共管理论文 质量管理论文 物流管理论文 经济管理论文 财务管理论文 管理学论文 秘书文秘 档案管理
社科论文
三农问题 环境保护 伦理道德 城镇建设 人口生育 资本主义 科技论文 社会论文 工程论文 环境科学