欢迎光临112期刊网!
网站首页 > 论文范文 > 计算机论文 > 信息安全 > 基于云计算的Web数据挖掘研究

基于云计算的Web数据挖掘研究

日期:2023-01-24 阅读量:0 所属栏目:信息安全


 1 引言
  Web搜索技术在一定程度上解决了用户查找网络信息的问题,但却没有解决知识发现的问题,并没有充分地揭示Web信息资源中隐藏的知识,人们迫切需要一种比Web数据挖掘技术更高,可以从Web上快速、有效地发现资源和知识的技术,基于云计算机的Web数据挖掘技术因此应运而生。
  2 云计算及关键技术
  2.1 云计算的定义
  在维基百科中,云计算被表述为一种基于互联网的计算,在其中共享的资源、软件和信息以一种按需的方式提供给计算机和设备,就如同日常生活中的电网一样。云计算一般们提供的是基于Web浏览器的、在线商业应用程序的服务。云计算的概念已经超越了单纯的软件交付。
  2.2 虚拟化技术
  虚拟化是云计算最重要的技术基础,虚拟化技术实现物理资源的统一表示和逻辑抽象。通过虚拟化技术可以提高资源利用率,可以改变根据用户的业务需求,快速和灵活的资源部署。虚拟化技术不仅可以扩大硬件的容量而且可以简化软件的重新配置过程。CPU虚拟化技术还可以用单CPU模拟多CPU并行,允许一个平台同时运行多个操作系统,同时应用程序可以运行在空间上,并且相互独立的、相互影响,从而显著提高计算机的效率。如果虚拟化的未来发展将包含更多的元素,多元化的服务器、存储和网络,用户将无法区分什么是虚拟的,什么是真实的。虚拟化将改变目前传统的IT基础设施和互联网的所有资源都在一起形成一个大型计算中心,而我们却不用关心所有这一切,而只需关心提供给自己的服务是否正常。
  2.3 并行编程模型
  并行编程模式,通俗地说就是指并行编程的一种形式,一种方式,就像串行编程时,你是采用过程式还是结构化一般。并行编程模式只要指并行编程时,程序员将程序各模块并行执行时,模块间的通信方式,并行计算模型是提高海量数据处理效率的常用方法。云计算环境下的并行计算机模型属于面向互联网数据密集型应用的并行编程模型,云计算下把海量数据分布到多个结点上,将计算机并行化,利用多个计算机的计算资源,加快数据处理的速度。
  为保证高可靠性、高可用与经济性,云计算通常是采用分布式存储的方式来对数据进行存储,使用冗余存储的方式来保证存储数据的可靠性,也就是说,同一数据的多个副本存储、云计算系统由大量服务器,以及大量用户,因此,云计算系统使用分布式数据存储模式,冗余存储的方式来保证数据的可靠性。
  3 Web数据挖掘
  Web数据挖掘是数据挖掘的延伸和发展,数据挖掘是指从大量的、不完全的有噪声、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的及最终可理解的模式过程。而Web数据挖掘技术是应用挖掘技术自动从Web文档和服务器上发现并提取有用信息的过程。尽管Web挖掘用到很多数据挖掘的技术,但Web挖掘不能和传统的数据挖掘等同起来,它不仅仅是直接在互联网中寻找到有用的信息,而且在复杂的网络信息中找到规律,从而实现信息的快速查找。
  4 云计算技术下的Web数据挖掘
  云计算技术下的Web数据挖掘借助于云计算的关键技术,实现传统Web数据挖掘技术的优化。云计算的并行处理和海量存储能力解决了数据挖掘所面临的海量数据处理问题。
  4.1 数据的收集
  数据收集是Web使用挖掘的基础,Web使用挖掘的对象是日志信息,是用户与系统交互时留下的日志数据,并存储在一个数据仓库。如果数据仓库的问题是数据可能会丢失。收集到的数据在云计算下对数据信息在网络上进行第一次筛选、转换和统一,并最终从数据后可以转化为一个统一的半结构化的XML文件,将其保存在一个分布式文件系统。因此,不仅可以优化数据收集方法,并避免存储数据的损失由设备故障引起的。云计算下的数据挖掘是一个很好的能保证共享技术,降低了数据挖掘应用门槛,使大规模的数据挖掘需要得到满足。
  4.2 数据预处理
  数据预处理保证Web使用挖掘质量的关键环节之一,它主要包括四个方面:(1)数据净化删除采集数据中的无用信息;(2)用户识别是从日志数据中识别出有多少个用户,确定哪些信息是同一个用户留下的;(3)会话识别是在用户识别的基础上,将同一个用户访问记录按照不同的访问时间段区分开来;(4)格式化是数据预处理的最后一个步骤,在这个步骤中,将预处理完的数据转换成符合挖掘算法要求的格式存储起来,供以后挖掘使用。
  4.3 数据分析
  数据分析是运用挖掘算法对预处理后的数据进行分析,从中发现隐含的知识。不同的挖掘目的会使用不同的挖掘算法:(1)统计分析是数据挖掘中最常用的方法,它主要是通过对日志数据的统计;(2)关联规则用于挖掘用户之间、页面之间及用户和网上行为之间存在的潜在关系;(3)序列模式是在一组时间有序的事务活动中,找出事务发生的先后次序;(4)分类聚类主要是根据用户的询问历史或过去所需信息的历史来判断用户需要什么样的信息等。
  5 结束语
  云计算是传统计算机技术和网络技术发展融合的产物,也是引领未来信息产业创新的关键战略性技术和手段。随着计算机网络的迅猛发展,使得网络上的各种资源信息异常丰富,而数据的迅速增加与数据分析方法的滞后之间的矛盾,也越来越突出人们希望在对已有的大量数据分析的基础上,进行科学研究、商业决策或者企业管理,而基于云计算的Web数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据分析处理而出现的,Web数据挖掘技术的发展给科技的发展、经济的推动和每个人的生活都带来了巨大的便利,云计算下的Web数据数据挖掘的应用领域不断地拓宽和深入,特别是在电信、军事、生物工程和商业智能等方面的应用将成为新的研究热点。
  参考文献
  .北京:高等教育出版社.2008.
  [2] 李建卓.云计算及其发展综述[J].宝鸡文理学院学报(自然科学版),2010,30(3).
  [3] 雷万云.云计算技术、平台及应用案例[M].北京:清华大学出版社.2011.
  作者简介:  
  田建勇(1976-),男,苗族,贵州人,副教授,硕士;主要研究方向和关注领域: 计算机应用。

本文链接:http://www.qk112.com/lwfw/jsjlw/xinxianquan/226127.html

论文中心更多

发表指导
期刊知识
职称指导
论文百科
写作指导
论文指导
论文格式 论文题目 论文开题 参考文献 论文致谢 论文前言
教育论文
美术教育 小学教育 学前教育 高等教育 职业教育 体育教育 英语教育 数学教育 初等教育 音乐教育 幼儿园教育 中教教育 教育理论 教育管理 中等教育 教育教学 成人教育 艺术教育 影视教育 特殊教育 心理学教育 师范教育 语文教育 研究生论文 化学教育 图书馆论文 文教资料 其他教育
医学论文
医学护理 医学检验 药学论文 畜牧兽医 中医学 临床医学 外科学 内科学 生物制药 基础医学 预防卫生 肿瘤论文 儿科学论文 妇产科 遗传学 其他医学
经济论文
国际贸易 市场营销 财政金融 农业经济 工业经济 财务审计 产业经济 交通运输 房地产经济 微观经济学 政治经济学 宏观经济学 西方经济学 其他经济 发展战略论文 国际经济 行业经济 证券投资论文 保险经济论文
法学论文
民法 国际法 刑法 行政法 经济法 宪法 司法制度 法学理论 其他法学
计算机论文
计算机网络 软件技术 计算机应用 信息安全 信息管理 智能科技 应用电子技术 通讯论文
会计论文
预算会计 财务会计 成本会计 会计电算化 管理会计 国际会计 会计理论 会计控制 审计会计
文学论文
中国哲学 艺术理论 心理学 伦理学 新闻 美学 逻辑学 音乐舞蹈 喜剧表演 广告学 电视电影 哲学理论 世界哲学 文史论文 美术论文
管理论文
行政管理论文 工商管理论文 市场营销论文 企业管理论文 成本管理论文 人力资源论文 项目管理论文 旅游管理论文 电子商务管理论文 公共管理论文 质量管理论文 物流管理论文 经济管理论文 财务管理论文 管理学论文 秘书文秘 档案管理
社科论文
三农问题 环境保护 伦理道德 城镇建设 人口生育 资本主义 科技论文 社会论文 工程论文 环境科学