欢迎光临112期刊网!
网站首页 > 论文范文 > 计算机论文 > 信息管理 > Web数据挖掘中频繁访问页组有趣性的研究

Web数据挖掘中频繁访问页组有趣性的研究

日期:2023-01-24 阅读量:0 所属栏目:信息管理


摘 要 关联规则挖掘是web使用挖掘的一个重要研究课题,而其中重要的一个问题就是挖掘出的规则的兴趣度评估。在实际的应用中,一般的关联规则算法往往很容易从web数据源中挖掘出大量的规则,而这些规则中,大部分对于用户来说是不感兴趣的。本文结合网络站点拓扑结构,提出了有趣关联规则的算法(mir)。利用页面之间的关联概率对所产生的频繁访问页组的有趣度进行评价,得到有趣度高的频繁访问页组。实验显示,mir算法提高了规则的利用率,有效的改善网站拓扑结构。 关键词 有趣关联规则;页面关联概率;频繁访问页组

1 引言

随着互联网技术的快速发展,如何在/pc/">计算机技术研究的一个热点课题。web挖掘是数据挖掘技术在互联网上的重要应用。它主要包含两大范畴:web内容挖掘和web使用挖掘。 关联规则挖掘是web使用挖掘的一个重要研究课题。它的目的是找到网站资源访问记录中隐含的相互关系,能够发现隐藏的用户访问模式。本文着重讨论了有趣关联规则的挖掘。通过分析日志文件,我们可以寻找到那些经常被用户访问的页面及他们之间的关联规则(即频繁访问页组)。但是,这些挖掘的结果应该考虑到规则的有趣度。兴趣度低的规则对于网站的结构调整和整体设计无重大意义。在本文中我们认为一个兴趣度高的用户频繁访问页组满足三点: (1)页组内页面本身之间链接程度低。 (2)页组内尽可能包含多的页面。 (3)经常被用户在一次浏览过程中访问。

2 关联规则

关联规则的问题描述如下: 设r = { i1,i2,⋯,im} 是一组物品集,w 是一组事务集。w 中的每个事务t 是一组物品,t < r。假设有一个物品集a,一个事务t,如果a < t,则称事务t 支持物品集a 。关联规则就是如下形式的一种蕴含:a →b,其中a,b是两组物品,a < i,b < i,且a ∩b 为空。则可用两个参数可信度和支持度来描述关联规则的属性,其定义如下: (1) 可信度(confidence) 。设w 中支持物品集a 的事务中,有c %的事务同时也支持物品集b,则称c %为关联规则a →b 的可信度。 (2) 支持度( support) 。设w 中有s %的事务同时支持物品集a 和b,则称s %为关联规则a →b 的支持度。显然可信度是对关联规则准确度的衡量,支持度则是对关联规则重要性的衡量。关联规则的挖掘问题就是在事务数据库d 中找出具有用户给定的最小支持度minsup 和最小可信度 minconf的关联规则。他可以分解为两个子问题: (1) 找出存在于事务数据库中的所有大物品集。物品集x 的支持度support ( x) 不小于用户给定的最小支持度minsup,则称x 为大物品集。 (2) 利用大项集生成关联规则。对于每个大项集a,若b < a,b 不为空,且confidence ( b →( a - b ) ) ≥minconf,则构成关联规则b →( a - b) 。 网站资源可以是网页、数据、图片、声音和文档。设x1、x2、……xm;y1、y2、……ym均为网站资源,x=>y(sup,conf)表示资源集的关联规则,其中x={x1、x2……xm},y={y1、y2、……ym},x∩y=空,这条规则的含义是如果资源集x被访问,那么资源集y也会被访问。规则的支持度为sup,置信度为conf,关联规则挖掘算法的目的就是要推导出所有达到一定支持度和置信度的规则。 但是,只使用支持度和置信度来描述关联规则是明显不足的,规则过多,用户不感兴趣,规则很难为用户服务和利用。这样的关联规则意义就不是很大。所以,结合网站的拓扑结构提出了mir算法来增加挖掘规则的有趣性。

3 有趣关联规则mir算法

3.1 页面之间的关联概率

在这里,假定超文本系统仅仅包含有一些基本的页面。除此外我们还假设:① 指向一个页面的连接是将这个页面作为一个整体来对待的,而不是指向页面内容的一部分;② 在超文本系统中不存在环路;③ 在任何源节点和目标节点间最多只有一条链路。基于以上的假设,我们可以为超文本系统建立一个有向网络拓扑图,如图1 所示: 图1 网络拓扑图 在这里,有向图g=(n,e),其中n 是节点的集合,e 是边的集合。一个节点a(a∈n)和一个页面相对应,一条边是一个元组(a,b)∈e,和页面间的一个连接相对应;对于给定的连接(a,b)称a是源节点,b是目的节点。在这里并不假定图是连接的。如果两个页面在网络拓扑中相距较远,则表明它们之间的关联性较低,如果我们从日志信息中挖掘出它们之间有较高的访问可信度的规则,则这样的规则是用户感兴趣的。如图1的页面c和e在拓扑结构中,显示关联度较低。如果,在web日志中发现了c=>e这样的关联规则,则兴趣度是较高的。通过这样兴趣度高的关联规则,有利于网站结构的调整。在介绍算法前,我们首先引入几种资源链接情况的关联概率。 (1)如果在资源a、b之间不存在任何有向边或者链接序列,则p(a|b)=0。 (2)如果资源之间存在有向边链接,假定b中存在li个链接(li>=1),则用户可能从b访问a的概率为p(a|b)=1/(li+1)(包括后退的情况)。如图1中p(c|b)=1/3。 (3)如果a,b之间存在有向序列(a,k1,k2,…b),则p(a|b)=p(k1|b)p(k2|k1)…p(a|kn)。

3.2 规则的有趣度确定

web关联规则挖掘可以利用网络拓扑的特点进行改善。网络拓扑是一个由链接连接起来的资源集。在网络拓扑中直接或间接相连的资源集在用户访问时同时出现的可能性较高,显然他们的关联规则对于网络拓扑设计者是不大感兴趣的。而在拓扑中不相连或相距较远的资源集在用户访问时同时出现的可能性较低,他们的关联规则恰好是网络设计者所期望取得的。在这里,我们定义有趣度公式如下: interest(a|b)=1-p(a|b) (1) 在拓扑结构中,关联度越高则兴趣度越低。如果页面间没有任何链接,则其interest为1。 当然,我们可以考虑页面内容及访问该页面时间长短和访问频率等多种因素来考虑兴趣度,但是这样实现的时候cpu花费的时间比较多,在这里我们考虑了比较简单实用的方法确定的规则有趣度。

3.3 有趣关联规则算法(mir)

挖掘频繁访问页组的算法类似于关联规则算法中发现最大项目集,我们预先设定支持度的阀值t,在频繁访问页组中都是支持度大于t的页面,在传统的页面聚类算法中,支持度指包含页组中所有页面的用户会话的个数。在mir算法中,我们除了设定支持度,同时根据网站的拓扑结构计算每个规则的有趣度interest(a|b)。挖掘出来的页组的有趣度还需要满足用户指定的最小兴趣度min-interest。 在算法中,我们先用floyd算法求得a到b的最短有向路径,然后利用上面讨论的公式计算p(a|b),进行页面间关联概率的计算。mir算法预先计算任意页面之间的最短路径,存储在邻接矩阵中,提高算法的运行效率。构造最短路径的算法描述如下: queue=enqueue(index)//从第一个页面开始 p=new node();//新建一个节点 while not empty(queue) i=dequeue();//从队列中取出一个页面 for each j= //对于该页面的每个链接 if not visited[j] then //判断页面j在图g中是否已有结点 s=s+1; q=new node(); enqueue(q); visited[j]=true; else q=getnode[j];//获取页j在图g中的结点 endif p(j|i)=1/(s+1);//根据公式计算关联概率 e(q,p(j|i));//从p节点增加有向边到q,概率为p(j|i) next end 有趣规则算法: 输入:支持度大于最小支持度t的频繁访问页组{a=>b},最小有趣度min-interest; 输出:有趣频繁访问页组; 利用上面的算法构造了一个含有任意页面最短路径的邻接矩阵w for each a=>b 利用式(1)和w计算interest(b|a); if interest(b|a)>min-interest then 输出”a=>b” end next

4 实验和结论

mir算法已经在学校网站中的一个星期的日志数据中进行了验证,试验环境是在cpu为piv1.3g,内存为256m的pc机上,运行平台为windows2003 server。实验数据长度为6mb的长度,其中包含7万条记录。日志数据中312个不同的页面。经过预处理后转为1703条会话记录。我们用一般的页面聚类算法(支持度大于t)和mir算法都对实验数据进行挖掘,得到的频繁项目集fgi列表如表1所示。 表1 算法实验比较 说明:|fgi|-频繁项目集的数目。 +,++,+++:这三个页组包含了我们感兴趣的页组。 通过实验可以发现通过mir算法设定最小兴趣度0.8,对一般算法产生的关联规则进行兴趣度过滤,将兴趣度低的关联规则排除,这样得到规则的兴趣度比较高,在实验中图1的网络拓扑结构产生了如abd=>f和ae=>c这样的有趣频繁访问页组。我们可以根据这样兴趣度高的规则来调整和改善网络的拓扑结构。网络拓扑修改后如图2所示: 图2 改善的网络拓扑结构 实验结果表明:mir算法在规则的有趣度方面有较大的改善,大大提高规则的利用率,可以很好的用于网络拓扑结构的改善。

参考文献

[ 1 ] r agrawal,t imielinski and a swami. mining association rulesbetween sets of items in large databases[m ]. washington,d. p93,207 - 216 [ 2 ] r agrawal and r srikant. fast algorithms for mining associationrules[ c ]. in j. b. bocca,m. jarke,and c. zaniolo,editors,proceedings 20 th international conference on very large databas2es,morgan kaufmann,1994. 487 - 499 [ 3 ]g liu,h lu,y xu,j x. yu. ascending frequency orderedprefix - tree:efficientmining of frequent patterns [ c ]. proc.2003 int. conf. on database systems for advanced app lications(dasfaap03),kyoto,japan,march 2003 [ 4 ]mohammad el - hajj and osmar r za? ane,cofi - treemining[ c ]. a new app roach to pattern growth with reduced candida2cy generation,in workshop on frequent itemsetmining imp le2mentations ( fim ip03) in conjunction with ieee - icdm 2003,melbourne,florida,usa,19 november,2003 [ 5 ]han j,pei j,yin y. m ining frequent pat ternsw ithoutcandidate generat ion [a ]. p roc 2000 a cm 2s igm odint conf on m anag em ent of d ata (s igm od ′00) [c ].dallas,2000. 1212 [6 ]周欣,沙朝锋,朱杨勇,施伯乐.兴趣度——关联规则的又一个阀值.计算机研究和发展,2000.5 本文链接:http://www.qk112.com/lwfw/jsjlw/xinxiguanli/259608.html

论文中心更多

发表指导
期刊知识
职称指导
论文百科
写作指导
论文指导
论文格式 论文题目 论文开题 参考文献 论文致谢 论文前言
教育论文
美术教育 小学教育 学前教育 高等教育 职业教育 体育教育 英语教育 数学教育 初等教育 音乐教育 幼儿园教育 中教教育 教育理论 教育管理 中等教育 教育教学 成人教育 艺术教育 影视教育 特殊教育 心理学教育 师范教育 语文教育 研究生论文 化学教育 图书馆论文 文教资料 其他教育
医学论文
医学护理 医学检验 药学论文 畜牧兽医 中医学 临床医学 外科学 内科学 生物制药 基础医学 预防卫生 肿瘤论文 儿科学论文 妇产科 遗传学 其他医学
经济论文
国际贸易 市场营销 财政金融 农业经济 工业经济 财务审计 产业经济 交通运输 房地产经济 微观经济学 政治经济学 宏观经济学 西方经济学 其他经济 发展战略论文 国际经济 行业经济 证券投资论文 保险经济论文
法学论文
民法 国际法 刑法 行政法 经济法 宪法 司法制度 法学理论 其他法学
计算机论文
计算机网络 软件技术 计算机应用 信息安全 信息管理 智能科技 应用电子技术 通讯论文
会计论文
预算会计 财务会计 成本会计 会计电算化 管理会计 国际会计 会计理论 会计控制 审计会计
文学论文
中国哲学 艺术理论 心理学 伦理学 新闻 美学 逻辑学 音乐舞蹈 喜剧表演 广告学 电视电影 哲学理论 世界哲学 文史论文 美术论文
管理论文
行政管理论文 工商管理论文 市场营销论文 企业管理论文 成本管理论文 人力资源论文 项目管理论文 旅游管理论文 电子商务管理论文 公共管理论文 质量管理论文 物流管理论文 经济管理论文 财务管理论文 管理学论文 秘书文秘 档案管理
社科论文
三农问题 环境保护 伦理道德 城镇建设 人口生育 资本主义 科技论文 社会论文 工程论文 环境科学