欢迎光临112期刊网!
网站首页 > 论文范文 > 教育论文 > 高等教育 > 聚类算法在高校网络用户行为分析中的应用

聚类算法在高校网络用户行为分析中的应用

日期:2023-01-13 阅读量:0 所属栏目:高等教育


  中图分类号: TN911?34 文献标识码: A 文章编号: 1004?373X(2016)07?0029?04

  Abstract: The network management departments in universities have accumulated users′ mass online behavior data in ope?ration management process, which can master users′ online habit and regular pattern by reorganizing and analyzing the users′ online behavior, and formulate the online management strategy scientifically and effectively. A specific college is taken as the example, the users′ online data is preprocessed, and corresponding field is extracted to built the analysis dataset. The online login time is showed in graphic form after statistics. By taking online time as the index value, the clustering analysis for the online record is conducted with K?means clustering and Kohonen neural network clustering methods to obtain the clustering results. In combination with the user information, the results obtained from the two clustering methods are compared by taking corresponding criterion of user and online record as the criterion to judge the clustering effect, and the suitable result is selected. The online condition of the experimental unit is analyzed with the computed results to propose some suggestions for online management strategy.

  Keywords: Kohonen neural network; university network management; online behavior; online management strategy

  0 引 言

  信息技术的高速发展,不但对人们的生产生活产生了巨大的影响,同时也给传统的学校教育带来了很大的冲击[1]。随着互联网应用的普及,网络用户数量快速增加。对国内高校而言,互联网已成为学校师生学习、工作、生活的基本需求,网络用户几乎覆盖了学校100%的人员。高校用户具有知识性强,使用互联网积极性高,信息交互量大等特点,对联网速率、网络稳定性都提出了较高要求。而由于我国高校网络用户连接互联网大多通过学校统一网络管理部门出口连接互联网,对高校而言,互联网出口带宽是有限的,网络管理部门在响应用户的上网需求时,有较大压力。为解决相关问题,各高校网络管理部门也采取了一定措施。一方面,通过技术手段优化学校网络结构,升级网络设备,提高网络可用性;另一方面,通过出台相应的管理措施利用经济与行政手段对用户上网行为进行相应引导,平衡用户的联网需求。

  目前国内的很多高校在校园网的运营管理上都会使用一些应用服务器,主要用于认证计费、入侵检测、流量监控等方面。在提供服务的同时,也产生了大量的日志数据存储于后台数据库中。这些数据包含着整个校园网内部用户的使用状况。如果能对这些数据进行科学有效的分析,并对分析结果加以合理利用,将会对整个网络管理起到很大的推进作用[2],为网络管理进行有效支撑,为决策科学化、管理精细化提供帮助。本文以一具体高校为案例,对用户上网行为进行分析,找到相应规律,根据相应指标对用户进行分类,为用户分组,制定用户管理决策提供帮助。

  1 数据抽取与分析

  D校在进行用户链接互联网管理过程中,用户通过专用客户端软件登录的方式登录互联网,网络管理部门对用户的登录上线时间、退出下线时间,登录总时长等都有专门数据库进行记录。每一次登录在后台都会出现一条记录。由于运行数据库相对庞大,表之间关系较为复杂,数据结构多样,为方便分析,从运行的上网数据库中提取与教工用户上网时间相关的字段,构造上网时间分析表进行分析,如表1所示。   从图1可以看出,每天大约6点钟后开始有少量教工登录互联网,在早8:00―9:00间达到高峰。在中午下班前11:00―12:00间登录人次降低。中午休息及下午上班前(12:00―14:00)登录人次较中午休息前增加,临近下班登录人次降低,下班后登录互联网人次相对稳定但低于上班期间数量。

  2 上网时长聚类

  聚类(Clustering)是数据挖掘中一种重要的挖掘方法,它是将物理或抽象对象进行分组并将相似对象归为一类的过程[3]。

  对于数据库中的记录,上网时长字段(TIME_LONG)是指从登陆网络到退出网络的时间,上网时长指标有一定规律性,为掌握用户上网行为,科学制定用户上网管理策略,下面对用户每次登陆的上网时长进行分析。

  K?均值算法是一种基于划分的聚类算法,它通过不断的迭代来进行聚类,当算法收敛到一个结束条件时就终止迭代过程,输出聚类结果。由于其算法思想简便,因此K?均值算法己成为一种最常用的聚类算法之一。

  使用K?均值聚类算法对一学院教工上网时长记录进行聚类,根据样本数量,设置聚类个数为4个,经过聚类,四个类的聚类中心分别为:聚类1,中心为3.51;聚类2,中心1.19;聚类3,中心44.25;聚类4,中心72.86。

  为每条记录增加一个字段,表示该条记录所属的类别。按上网时长排序的聚类结果如表2所示。

  Kohonen网络是自组织竞争型神经网络的一种,它能够识别环境特征并自动聚类[4],该网络为无监督学习网络,能够识别环境特征并自动聚类。该方法用迭代算法优化目标函数来获取对数据集的分类。

  聚类结果如表3所示。

  3 聚类结果比较与策略分析

  对照原始数据发现,一个用户每天可以频繁多次登陆退出网络,在有联网需要的时候上网,不需要上网的时候及时退出,待有需要的时候再次联网,在这种情况下,对于同一个用户,在数据库里一天可以有多条记录。同样,也存在这样的情况,有的用户每天只登陆网络一次,待关机时自动退出网络,对于这样的用户,一天只有一条登录记录。

  对于绝大多数用户,个人的上网行为是有一定规律的,而在上述对上网时长进行聚类的过程中并没有考虑用户的因素,这就出现了同一用户的不同上网记录被划分到不同类别的情况,如果上网时长相差较大,被分在不同类别是可以理解的,而如果同一个用户每次上网时长比较接近,且恰巧在聚类边界点附近,但被划分在不同类别,那么聚类结果则不能被很好的理解。

  基于这种现象,对上述两种聚类方法的聚类效果进行评价。

  评价偏好假设:相比于类间距、类内距离而言,将同一个用户主体距离较近而类别不同的记录记为一类更有意义。对不同聚类算法而言,聚类边界点附近的属于同一个用户但被划分为不同类别的记录越少越好。边界点附近的记录对比结果如表4所示。

  在[K?]均值聚类结果中,200720x2,199610x0,200420x0,200910x9四个用户具有在边界点附近且被划分为不同类别的记录,而在Kohonen聚类的边界点附近却没有类似的数据。因此,根据评价偏好,在本例中采用Kohonen聚类方法聚类效果更好,对实际数据的解释效果更好。

  策略分析:通过对用户上网时长进行聚类,分析聚类结果,约70%的上网记录为第一类,上网时长集中在1 h之内,说明对大部分用户,都能根据上网需求,调整上线时间,在没有上网需求时,主动退出互联网,这也与大部分用户选择的按时上网收费策略是相关的,说明相应的策略能够影响用户的上网行为。

  第四类上网记录数量不多,但上网时长较长超过6 h,对比上网记录的用户信息,发现主要集中在个别用户,结合实际工作与走访调查,发现上述用户普遍存在对上网工具使用不熟悉,不会主动退出网络,只在关机时自动退出网络的现象。针对这种情况,对此类用户进行有针对性的上网工具培训,同时在上网管理策略中增加规则,对上网时长超过6 h的记录,通过消息推送对用户进行提示,有效引导用户使用行为。

  4 结 语

  本文结合具体实例,对一特定单位网络用户上网时间数据进行分析,根据将同一个用户主体距离相近而类别不同的记录记为一类更有意义的前提假设,对传统[K?]均值聚类算法进行改进。在具体实例中,结合记录中的用户信息,通过将同一用户在边界点附近且属于不同类别的记录调整为一类,对聚类边界点进行调整,改进后的聚类结果对样本数据有更好的解释效果。

本文链接:http://www.qk112.com/lwfw/jiaoyulunwen/gaodengjiaoyu/197567.html

论文中心更多

发表指导
期刊知识
职称指导
论文百科
写作指导
论文指导
论文格式 论文题目 论文开题 参考文献 论文致谢 论文前言
教育论文
美术教育 小学教育 学前教育 高等教育 职业教育 体育教育 英语教育 数学教育 初等教育 音乐教育 幼儿园教育 中教教育 教育理论 教育管理 中等教育 教育教学 成人教育 艺术教育 影视教育 特殊教育 心理学教育 师范教育 语文教育 研究生论文 化学教育 图书馆论文 文教资料 其他教育
医学论文
医学护理 医学检验 药学论文 畜牧兽医 中医学 临床医学 外科学 内科学 生物制药 基础医学 预防卫生 肿瘤论文 儿科学论文 妇产科 遗传学 其他医学
经济论文
国际贸易 市场营销 财政金融 农业经济 工业经济 财务审计 产业经济 交通运输 房地产经济 微观经济学 政治经济学 宏观经济学 西方经济学 其他经济 发展战略论文 国际经济 行业经济 证券投资论文 保险经济论文
法学论文
民法 国际法 刑法 行政法 经济法 宪法 司法制度 法学理论 其他法学
计算机论文
计算机网络 软件技术 计算机应用 信息安全 信息管理 智能科技 应用电子技术 通讯论文
会计论文
预算会计 财务会计 成本会计 会计电算化 管理会计 国际会计 会计理论 会计控制 审计会计
文学论文
中国哲学 艺术理论 心理学 伦理学 新闻 美学 逻辑学 音乐舞蹈 喜剧表演 广告学 电视电影 哲学理论 世界哲学 文史论文 美术论文
管理论文
行政管理论文 工商管理论文 市场营销论文 企业管理论文 成本管理论文 人力资源论文 项目管理论文 旅游管理论文 电子商务管理论文 公共管理论文 质量管理论文 物流管理论文 经济管理论文 财务管理论文 管理学论文 秘书文秘 档案管理
社科论文
三农问题 环境保护 伦理道德 城镇建设 人口生育 资本主义 科技论文 社会论文 工程论文 环境科学