Ｗｅｂ挖掘在电子商务系统中的应用

日期：2023-01-05 阅读量：0次所属栏目：电子商务管理论文

[摘要] 本文阐述了在电子商务应用中，利用web挖掘技术，有效地将用户访问过程中的数据记录到日志文件中，并对日志文件进行有效地分析和挖掘；利用apriori改进算法ft－树增长算法，找出对电子商务系统有指导作用的关联规律。
　　[关键词] 电子商务数据挖掘日志挖掘知识发现人工智能
　　随着电子商务的发展，企业的数据越来越多，而当其数据积累到一定程度时，必然会反映出一定规律性的东西，也就是说，企业的海量、分布、动态、复杂、非结构化的数据中蕴含有可以为其利用的规律。因此，人们迫切希望使用一种技术，从中挖掘出具有价值的规律来，形成对企业的技术和经营的指导。数据挖掘技术是可以用来挖掘这些规律的一种有效工具。
　　web中包含的丰富和动态的超链接信息，以及web页面的访问和使用信息，为数据挖掘提供了丰富的资源。如何对web中的数据进行有效的资源和知识发现，是web挖掘需要解决的问题。
　　
　　一、web信息数据的特征
　　
　　传统数据挖掘的信息局限于数据库中的结构化数据，而web信息数据是半结构化或非结构化的,具有如下特征: 一是大规模海量数据信息。二是信息分布广泛。三是异质、动态的信息源。web及其数据的更新、增长速度极快, web上的信息几乎都是隐藏的、未知的。四是信息具有丰富的内涵。既有涉及各方面丰富的信息内容,又蕴涵着访问页面、路径、时间、用户ip地址等这些潜在的访问信息。
　　
　　二、数据挖掘及web挖掘技术
　　
　　1.数据挖掘
　　数据挖掘，又称数据库中的知识发现，近几年来已被数据库界所广泛研究。它是在数据仓库或大型数据库的基础上，从大量的、模糊的、随机的数据中提取出数据间重要的但容易被人工分析忽略的知识和信息。数据挖掘技术涉及数据库、人工智能、神经网络、预测理论、机器学习和统计学等多种相关技术。数据库中的知识发现（kdd）是从大量数据中提取出可信的、新颖的、有效的并能被人们理解的模式的高级处理过程。模式可以看作是我们所说的知识，它给出了数据的特性或数据之间的关系，是对数据包含的信息更抽象的描述。
　　挖掘
　　web挖掘是对数据挖掘的一种新的发展和应用，但不同于传统的数据挖掘，其主要区别在于传统的数据挖掘的对象局限于数据库中的结构化数据，并利用关系表等存储结构来挖掘知识，而web挖掘的对象是半结构化或非结构化特征。
　　web挖掘就是从大量的web文档和web活动中发现、抽取感兴趣的、潜在的有用模式和隐含的、事先未知的、潜在的信息。它以数据挖掘、文本挖掘、多媒体挖掘为基础，并综合运用计算机网络、数据库与数据仓库、人工智能、信息检索、信息提取、机器学习、统计学、概率理论、可视化、计算机语言学、自然语言理解等多个领域的技术，并将传统的数据挖掘技术与web结合起来。web挖掘分为：web内容挖掘、web结构挖掘和web使用记录挖掘，如下图所示。

　　图 web挖掘的分类
　　
　　三、基于web日志挖掘的算法
　　
　　web日志记录了用户访问的信息，包括用户的访问方式、访问时间、访问人数、用户ip地址、被请求文件的url http版本号、传输字节数、引用页的url等。
　　1.符号与定义
　　web日志文件是由一条记录组成的，一条记录实际上记录的是用户对web页面的一次访问。
　　定义1关联规则：设i是web日志的一条记录，即i={i1,i2,…,im},其中ij(1≤j≤m)是某用户访问一种商品的数据，每次访问一种商品都包含有如商品编号、访问时间、访问次数、客户号、客户ip地址等数据，称此类数据为数据项。ti∈i为i的一个子集。d={t1,t2,…,tn}是关于ti的集合，且x∈i，y∈i，x∩y =ф，则记录x=>y为在集合d中x与y相互关联的规则。

　　定义2支持度：如果x=>y在t中的s%成立，则称x＝>y的支持度为s%，即
　　s% =(|{t|t中含有x,y}|/|t|)·100%
　　支持度s%表示x=>y中出现的普遍程度。
　　定义3置信度c%
　　c%=(|{t|t中含有x,y}|/|{t|t中含有x}|)·100%
　　置信度表征的是规则的强度。
　　定义4频繁模式：大于给定的支持度的模式x=>y称为频繁模式，并将它看成是t中一条有意义的关联规则。
　　2.算法描述
　　根据fp－增长或频繁模式增长（frequent-pattern growth）算法，将关联规则的挖掘分为两个步骤实施：根据所提供的最小支持度和最小置信度找出所有的频繁项集；利用所产生的频繁项集，产生合理的关联规则。
　　（1）fp－增长算法的具体算法描述如下：
　　输入事务数据库d，最小支持度阈值min_sup
　　输出d中的所有频繁项集
　　方法1按以下步骤扫描构造fp－树：
　　①扫描事务数据库d一次。收集频繁项的集合f和其支持度。对f按支持度降序排序，结果为频繁项表l。
　　②创建fp－树的根节点，以“null”标记。对d中每个trans,执行：
　　选择trans中的频繁项，按l中的次序排序。设排序后的频繁项表为[p│p]，其中p是第一个元素，p是剩余的元素表。调用insert_tree([p│p] ,t)。即：如果t有子女n使得－name = －name，则n的记数增加1，否则创建一个新节点n，并将其计数设置为1，链接到它的父节点t，并通过节点链接结构将其链接到具有相同item–name的节点。如果p非空，递归调用insert_tree（p,n）。
　　方法2procedure ft_growth(tree,α)
　　if tree含单个路径p then
　　for p中节点的每个组合（记作β）产生模式β∪α，其支持度support=β中节点最小支持度；
　　else for each αi在tree的头部{
　　产生一个模式β=αi∪α，其支持度support =αi·support；
　　构造β的条件模式基，然后构造β的条件fp－树treeβ；
　　if treeβ≠φthen
　　调用fp_growth(treeβ,β)；}
　　（2）产生频繁项集。本文主要介绍如何产生所有频繁项集。假设有一个两维的web日志数据文件。一维是商品号，共有三种商品，分别标志为t1，t2，t3；另一维包括商品的访问次数，为简化处理，分别标志为interview1，interview2，interview3，interview4，interview5。另假设min_sup=0.3，minconf =0.5,表1给出了两维的事务数据库，表2给出的是一维频繁项集，表3给出的是二维频繁项集。

　　
　　四、结束语
　　
　　本文提出了一种基于日志的web数据挖掘方法，对电子商务系统具有较强的现实指导意义。web日志挖掘所得到的结果既有利于提高网站的性能和安全性,也可以作为优化站点拓扑结构和页面之间的超链接关系的依据,也是在web上进行市场开发和开展电子商务活动的依据,也可以作为网站为用户提供个性化服务和构建智能化web站点的依据。

本文链接：http://www.qk112.com/lwfw/guanlilunwen/dianzishangwuguanlilunwen/40015.html

上一篇：电子商务诚信机制的构建

下一篇：基于ａｇｅｎｔ的设备租赁电子商务平台研究

期刊推荐

论文中心 更多

发表指导
期刊知识
职称指导
论文百科
写作指导
论文指导: 论文格式论文题目论文开题参考文献论文致谢论文前言
教育论文: 美术教育小学教育学前教育高等教育职业教育体育教育英语教育数学教育初等教育音乐教育幼儿园教育中教教育教育理论教育管理中等教育教育教学成人教育艺术教育影视教育特殊教育心理学教育师范教育语文教育研究生论文化学教育图书馆论文文教资料其他教育
医学论文: 医学护理医学检验药学论文畜牧兽医中医学临床医学外科学内科学生物制药基础医学预防卫生肿瘤论文儿科学论文妇产科遗传学其他医学
经济论文: 国际贸易市场营销财政金融农业经济工业经济财务审计产业经济交通运输房地产经济微观经济学政治经济学宏观经济学西方经济学其他经济发展战略论文国际经济行业经济证券投资论文保险经济论文
法学论文: 民法国际法刑法行政法经济法宪法司法制度法学理论其他法学
计算机论文: 计算机网络软件技术计算机应用信息安全信息管理智能科技应用电子技术通讯论文
会计论文: 预算会计财务会计成本会计会计电算化管理会计国际会计会计理论会计控制审计会计
文学论文: 中国哲学艺术理论心理学伦理学新闻美学逻辑学音乐舞蹈喜剧表演广告学电视电影哲学理论世界哲学文史论文美术论文
管理论文: 行政管理论文工商管理论文市场营销论文企业管理论文成本管理论文人力资源论文项目管理论文旅游管理论文电子商务管理论文公共管理论文质量管理论文物流管理论文经济管理论文财务管理论文管理学论文秘书文秘档案管理
社科论文: 三农问题环境保护伦理道德城镇建设人口生育资本主义科技论文社会论文工程论文环境科学

Ｗｅｂ挖掘在电子商务系统中的应用

相关文章

期刊推荐

论文中心 更多

电子商务管理论文排行