欢迎光临112期刊网!
网站首页 > 论文范文 > 管理论文 > 电子商务管理论文 > Web挖掘在电子商务系统中的应用

Web挖掘在电子商务系统中的应用

日期:2023-01-05 阅读量:0 所属栏目:电子商务管理论文


[摘要] 本文阐述了在电子商务应用中,利用web挖掘技术,有效地将用户访问过程中的数据记录到日志文件中,并对日志文件进行有效地分析和挖掘;利用apriori改进算法ft-树增长算法,找出对电子商务系统有指导作用的关联规律。
  [关键词] 电子商务 数据挖掘 日志挖掘 知识发现 人工智能
  随着电子商务的发展,企业的数据越来越多,而当其数据积累到一定程度时,必然会反映出一定规律性的东西,也就是说,企业的海量、分布、动态、复杂、非结构化的数据中蕴含有可以为其利用的规律。因此,人们迫切希望使用一种技术,从中挖掘出具有价值的规律来,形成对企业的技术和经营的指导。数据挖掘技术是可以用来挖掘这些规律的一种有效工具。
  web中包含的丰富和动态的超链接信息,以及web页面的访问和使用信息,为数据挖掘提供了丰富的资源。如何对web中的数据进行有效的资源和知识发现,是web挖掘需要解决的问题。
  
  一、web信息数据的特征
  
  传统数据挖掘的信息局限于数据库中的结构化数据,而web信息数据是半结构化或非结构化的,具有如下特征: 一是大规模海量数据信息。二是信息分布广泛。三是异质、动态的信息源。web及其数据的更新、增长速度极快, web上的信息几乎都是隐藏的、未知的。四是信息具有丰富的内涵。既有涉及各方面丰富的信息内容,又蕴涵着访问页面、路径、时间、用户ip地址等这些潜在的访问信息。
  
  二、数据挖掘及web挖掘技术
  
  1.数据挖掘
  数据挖掘,又称数据库中的知识发现,近几年来已被数据库界所广泛研究。它是在数据仓库或大型数据库的基础上,从大量的、模糊的、随机的数据中提取出数据间重要的但容易被人工分析忽略的知识和信息。数据挖掘技术涉及数据库、人工智能、神经网络、预测理论、机器学习和统计学等多种相关技术。数据库中的知识发现(kdd)是从大量数据中提取出可信的、新颖的、有效的并能被人们理解的模式的高级处理过程。模式可以看作是我们所说的知识,它给出了数据的特性或数据之间的关系,是对数据包含的信息更抽象的描述。
  挖掘
  web挖掘是对数据挖掘的一种新的发展和应用,但不同于传统的数据挖掘,其主要区别在于传统的数据挖掘的对象局限于数据库中的结构化数据,并利用关系表等存储结构来挖掘知识,而web挖掘的对象是半结构化或非结构化特征。
  web挖掘就是从大量的web文档和web活动中发现、抽取感兴趣的、潜在的有用模式和隐含的、事先未知的、潜在的信息。它以数据挖掘、文本挖掘、多媒体挖掘为基础,并综合运用计算机网络、数据库与数据仓库、人工智能、信息检索、信息提取、机器学习、统计学、概率理论、可视化、计算机语言学、自然语言理解等多个领域的技术,并将传统的数据挖掘技术与web结合起来。web挖掘分为:web内容挖掘、web结构挖掘和web使用记录挖掘,如下图所示。


  图 web挖掘的分类
  
  三、基于web日志挖掘的算法
  
  web日志记录了用户访问的信息,包括用户的访问方式、访问时间、访问人数、用户ip地址、被请求文件的url http版本号、传输字节数、引用页的url等。
  1.符号与定义
  web日志文件是由一条记录组成的,一条记录实际上记录的是用户对web页面的一次访问。
  定义1关联规则:设i是web日志的一条记录,即i={i1,i2,…,im},其中ij(1≤j≤m)是某用户访问一种商品的数据,每次访问一种商品都包含有如商品编号、访问时间、访问次数、客户号、客户ip地址等数据,称此类数据为数据项。ti∈i为i的一个子集。d={t1,t2,…,tn}是关于ti的集合,且x∈i,y∈i,x∩y =ф,则记录x=>y为在集合d中x与y相互关联的规则。


  定义2支持度:如果x=>y在t中的s%成立,则称x=>y的支持度为s%,即
  s% =(|{t|t中含有x,y}|/|t|)·100%
  支持度s%表示x=>y中出现的普遍程度。
  定义3置信度c%
  c%=(|{t|t中含有x,y}|/|{t|t中含有x}|)·100%
  置信度表征的是规则的强度。
  定义4频繁模式:大于给定的支持度的模式x=>y称为频繁模式,并将它看成是t中一条有意义的关联规则。
  2.算法描述
  根据fp-增长或频繁模式增长(frequent-pattern growth)算法,将关联规则的挖掘分为两个步骤实施:根据所提供的最小支持度和最小置信度找出所有的频繁项集;利用所产生的频繁项集,产生合理的关联规则。
  (1)fp-增长算法的具体算法描述如下:
  输入事务数据库d,最小支持度阈值min_sup
  输出d中的所有频繁项集
  方法1按以下步骤扫描构造fp-树:
  ①扫描事务数据库d一次。收集频繁项的集合f和其支持度。对f按支持度降序排序,结果为频繁项表l。
  ②创建fp-树的根节点,以“null”标记。对d中每个trans,执行:
  选择trans中的频繁项,按l中的次序排序。设排序后的频繁项表为[p│p],其中p是第一个元素,p是剩余的元素表。调用insert_tree([p│p] ,t)。即:如果t有子女n使得-name = -name,则n的记数增加1,否则创建一个新节点n,并将其计数设置为1,链接到它的父节点t,并通过节点链接结构将其链接到具有相同item–name的节点。如果p非空,递归调用insert_tree(p,n)。
  方法2procedure ft_growth(tree,α)
  if tree含单个路径p then
  for p中节点的每个组合(记作β)产生模式β∪α,其支持度support=β中节点最小支持度;
  else for each αi在tree的头部{
  产生一个模式β=αi∪α,其支持度support =αi·support;
  构造β的条件模式基,然后构造β的条件fp-树treeβ;
  if treeβ≠φthen
  调用fp_growth(treeβ,β);}
  (2)产生频繁项集。本文主要介绍如何产生所有频繁项集。假设有一个两维的web日志数据文件。一维是商品号,共有三种商品,分别标志为t1,t2,t3;另一维包括商品的访问次数,为简化处理,分别标志为interview1,interview2,interview3,interview4,interview5。另假设min_sup=0.3,minconf =0.5,表1给出了两维的事务数据库,表2给出的是一维频繁项集,表3给出的是二维频繁项集。


  
  四、结束语
  
  本文提出了一种基于日志的web数据挖掘方法,对电子商务系统具有较强的现实指导意义。web日志挖掘所得到的结果既有利于提高网站的性能和安全性,也可以作为优化站点拓扑结构和页面之间的超链接关系的依据,也是在web上进行市场开发和开展电子商务活动的依据,也可以作为网站为用户提供个性化服务和构建智能化web站点的依据。

本文链接:http://www.qk112.com/lwfw/guanlilunwen/dianzishangwuguanlilunwen/40015.html

论文中心更多

发表指导
期刊知识
职称指导
论文百科
写作指导
论文指导
论文格式 论文题目 论文开题 参考文献 论文致谢 论文前言
教育论文
美术教育 小学教育 学前教育 高等教育 职业教育 体育教育 英语教育 数学教育 初等教育 音乐教育 幼儿园教育 中教教育 教育理论 教育管理 中等教育 教育教学 成人教育 艺术教育 影视教育 特殊教育 心理学教育 师范教育 语文教育 研究生论文 化学教育 图书馆论文 文教资料 其他教育
医学论文
医学护理 医学检验 药学论文 畜牧兽医 中医学 临床医学 外科学 内科学 生物制药 基础医学 预防卫生 肿瘤论文 儿科学论文 妇产科 遗传学 其他医学
经济论文
国际贸易 市场营销 财政金融 农业经济 工业经济 财务审计 产业经济 交通运输 房地产经济 微观经济学 政治经济学 宏观经济学 西方经济学 其他经济 发展战略论文 国际经济 行业经济 证券投资论文 保险经济论文
法学论文
民法 国际法 刑法 行政法 经济法 宪法 司法制度 法学理论 其他法学
计算机论文
计算机网络 软件技术 计算机应用 信息安全 信息管理 智能科技 应用电子技术 通讯论文
会计论文
预算会计 财务会计 成本会计 会计电算化 管理会计 国际会计 会计理论 会计控制 审计会计
文学论文
中国哲学 艺术理论 心理学 伦理学 新闻 美学 逻辑学 音乐舞蹈 喜剧表演 广告学 电视电影 哲学理论 世界哲学 文史论文 美术论文
管理论文
行政管理论文 工商管理论文 市场营销论文 企业管理论文 成本管理论文 人力资源论文 项目管理论文 旅游管理论文 电子商务管理论文 公共管理论文 质量管理论文 物流管理论文 经济管理论文 财务管理论文 管理学论文 秘书文秘 档案管理
社科论文
三农问题 环境保护 伦理道德 城镇建设 人口生育 资本主义 科技论文 社会论文 工程论文 环境科学