基于电子商务网站的ＷＥＢ内容挖掘

日期：2023-01-05 阅读量：0次所属栏目：电子商务管理论文

[摘要] 随着网络技术的迅速发展，电子商务行业正处以一个高速发展的时期，各类商务网站也应运而生。如何从繁多的商务网站数据中获得有用的信息就成了一件亟需解决的问题。本文分析了web内容挖掘在电子商务网站中的应用以及如何获得数据源。
　　[关键词] 电子商务网站 web内容挖掘数据源
　　
　　一、引言
　　对于电子商务网站来说，internet上储存了大量的文档、图像、声音等非结构化的数据及信息，并且用户群体也显示出多样性，也就是说每个浏览网站的人，他们的需求、兴趣以及浏览目的各不相同。一个稍具规模的电子商务网站每天处理的业务成千上万，那么如何从这些数据中找到有用的信息，帮助电子商务的经营者和研究者从海量的web数据中得到真正有价值的信息，以指导他们做出管理上的决策。就是一个非常重要而有意义的事情。
　　二、爬虫和web内容挖掘
　　挖掘的典型分类
　　在目前的研究中， web数据挖掘分为:web内容挖掘（web content mining）、web使用(访问信息)挖掘（web usage mining）、web结构挖掘(web structure mining）三种典型的类型。
　　(1)web内容挖掘主要是对站点的web页面内容进行挖掘。目前，大多数研究主要集中在如何对网站上的文本以及多媒体数据进行分类以提高数据挖掘的有效性，很少涉及到如何从网站上进行数据的采集以及分析。
　　(2)web结构挖掘主要是对web文档的结构进行挖掘，通过一定的算法来发现给定的web文档之间的链接情况，从而得到比较重要的页面，以向浏览网站的用户提供权威页面。
　　(3)web使用(访问信息)挖掘主要是对用户访问web时在服务器方留下的访问记录,也就是用户访问web站点的存取方式进行挖掘。它通过挖掘相关的web日志记录，来发现用户访问web页面的模式。目前流行的挖掘手段主要包括:路径分析、关联规则和序列模式的发现、聚类和分类等。
　　挖掘的数据源
　　在web数据挖掘中存在几种代表性的数据源：
　　（1)服务器日志数据。个人浏览web服务器时,在服务器那方就会产生3种类型的日志文件:server logs,error logs和cookie logs,这些日志文件主要是用来保存用户访问的基本情况。所以就成为开展web使用(访问信息)挖掘的主要数据源。但有一点需要注意的是,这些数据是在服务器方生成的,因此有一定的不可获取性,因为这会涉及到商业机密。
　　（2)在线市场数据。这类数据主要是跟市场活动有关的信息。在线市场数据是业务数据,是进行业务相关分析的主要数据源。
　　（3)web页面。目前的web页面大多满足html标准。html页面中包含文本和多媒体信息,例如图片、图像、语言等，因此涉及到数据挖掘领域中的文本挖掘和多媒体挖掘,目前很多研究都在致力于如何对文本和多媒体信息进行挖掘的算法分析。
　　（4)web页面超链接关系。web页面之间的超链接关系是一种重要的资源，网站的设计者总是把他们认为重要的页面添加到自己的页面上来。
　　（5)其他数据。除了上述几种重要的数据源外，还有一些其他方面的数据，比如用户注册信息等一系列信息。
　　当然，在实际的web数据挖掘中这些数据源并不是孤立使用的，而是几种数据源的综合使用和分析，例如我们要对访问某个电子商务网站的用户购买商品的路径分析的同时还需要知道这些客户群的一些基本信息。

　　3.爬虫和web内容挖掘
　　由于上述的几种数据源中有一些是在服务器方生成的,比如说日志文件和用户注册信息,并且涉及到商业机密问题,所以在数据源的获得上存在一定的难度。这里,我们可以利用爬虫(crawler)的工作原理,来作为我们进行web内容挖掘的一种信息获取和分析的工具,得到我们需要的数据源。
　　（1)爬虫的工作原理。爬虫(crawler）是一个用来分解web中超文本结构的工具。一个商业网站的web页面是通过超链接的关系存在的,就组成了类似一张张的网。网络爬虫是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始，读取网页的内容,找到在网页中的其他链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络爬虫就可以用这个原理把互联网上所有的网页都抓取下来。
　　（2)数据的获得。我们就可以利用上述爬虫的工作原理，从我们需要的信息起始页开始进行爬取数据，得到与之有关的大多数web页面上的信息。
　　（3)数据的分析。在对链接页面进行搜索的过程中，经常需要判断信息的属性或分析信息的价值，因为web页面上存储了浩瀚的数据，比如一些广告信息，而有的数据并不是我们需要的。在此，我们可以利用基于正则表达式(regular expression)的词法分析技术对采集到的html代码进行语法分析，提取其中有效信息，例如出售的商品分类、规格、价格、数量、运送方式、运费、出售人、曾经购买过的用户等。
　　（4)数据的保存。为了进行最终的挖掘工作，我们需要把经过分析的有效数据最终保存到数据库当中。一般选择大型的数据库管理工具，如sql server2005等。
　　（5)进行挖掘。利用数据挖掘技术获取有效的信息，对相关问题模式进行验证。
　　三、结束语
　　电子商务网站，无论是b/c模式还是c/c的，在网站页面上都保存了大量用户在交易过程中产生的信息，例如商品的规格、价格、展示、售后服务以及运输方式等等，还包括卖家的个人信息、信用情况，根据平台的不同还有相应的支付方式、法律条款等等。那么，利用爬虫技术，我们可以开发出一个获得数据源的有效工具来进行web内容挖掘。
　　当然，在现实研究当中,web内容挖掘是和web结构挖掘及web访问信息挖掘结合在一起使用的,它们相互补充，共同来挖掘出有用的信息。
　　
　　参考文献:
　　[1]梁协雄雷汝焕曹长修:现代数据挖掘技术研究进展.重庆大学学报,2004.3:p.21～26
　　[2]吴修琴:基于web使用挖掘的个性化服务推荐:河北科技图苑，2007.3
本文链接：http://www.qk112.com/lwfw/guanlilunwen/dianzishangwuguanlilunwen/39751.html

上一篇：电子商务中安全问题的分析及其安全策略

下一篇：电子商务中的网络欺诈及其防范

期刊推荐

论文中心 更多

发表指导
期刊知识
职称指导
论文百科
写作指导
论文指导: 论文格式论文题目论文开题参考文献论文致谢论文前言
教育论文: 美术教育小学教育学前教育高等教育职业教育体育教育英语教育数学教育初等教育音乐教育幼儿园教育中教教育教育理论教育管理中等教育教育教学成人教育艺术教育影视教育特殊教育心理学教育师范教育语文教育研究生论文化学教育图书馆论文文教资料其他教育
医学论文: 医学护理医学检验药学论文畜牧兽医中医学临床医学外科学内科学生物制药基础医学预防卫生肿瘤论文儿科学论文妇产科遗传学其他医学
经济论文: 国际贸易市场营销财政金融农业经济工业经济财务审计产业经济交通运输房地产经济微观经济学政治经济学宏观经济学西方经济学其他经济发展战略论文国际经济行业经济证券投资论文保险经济论文
法学论文: 民法国际法刑法行政法经济法宪法司法制度法学理论其他法学
计算机论文: 计算机网络软件技术计算机应用信息安全信息管理智能科技应用电子技术通讯论文
会计论文: 预算会计财务会计成本会计会计电算化管理会计国际会计会计理论会计控制审计会计
文学论文: 中国哲学艺术理论心理学伦理学新闻美学逻辑学音乐舞蹈喜剧表演广告学电视电影哲学理论世界哲学文史论文美术论文
管理论文: 行政管理论文工商管理论文市场营销论文企业管理论文成本管理论文人力资源论文项目管理论文旅游管理论文电子商务管理论文公共管理论文质量管理论文物流管理论文经济管理论文财务管理论文管理学论文秘书文秘档案管理
社科论文: 三农问题环境保护伦理道德城镇建设人口生育资本主义科技论文社会论文工程论文环境科学

基于电子商务网站的ＷＥＢ内容挖掘

相关文章

期刊推荐

论文中心 更多

电子商务管理论文排行