欢迎光临112期刊网!
网站首页 > 论文范文 > 计算机论文 > 计算机应用 > 基于访问趋势的热点副本创建策略

基于访问趋势的热点副本创建策略

日期:2023-01-24 阅读量:0 所属栏目:计算机应用


摘要:在分析动态副本创建策略的基础上,对集中式的动态创建策略进行改进,将热点数据副本的创建与数据访问的历史记录相结合。最后通过数据网格模拟器进行模拟实验,得出并分析了实验结果。
  关键词:数据网格; 副本优化; 热点副本
  
  在现代科学研究和应用领域中,大量的数据是重要的资源,如高能物理和粒子物理、生物医学研究、航空航天、数字地球、大型武器模拟、大型数据库和数据仓库等的应用。其数据量将达到tb至pb的级别。同时,地理上广泛分布的科研工作者和用户都希望能访问和分析这些庞大的数据,而现有的数据管理体系结构、方法和技术已经不能满足人们对高性能、大容量分布存储和分布处理的要求。因此,数据网格应运而生,以解决上述应用面临的问题。
  数据网格计算[1]为各种应用提供了一个高性能、大容量、高速传输的并行分布广域计算平台。它是对广域范围内大规模的数据集进行分布式管理和分析及使用的一个综合的体系结构,实现网格环境中安全、可靠和有效的数据传输以及访问、复制等操作,并提供到不同存储系统的统一接口,较好地解决了上述问题, 从而使得数据密集型的高性能计算和大量的共享数据密集型的事务处理及科学研究成为可能。
  在数据网格环境下,通过数据的复制使数据更接近用户,可以更快执行用户提交的作业,在更短的时间内访问作业所需的数据文件,以快速提高数据访问性能。作业通过资源代理(rb)提交给网格。rb将作业调度到不同的计算单元(ce),以提高网格的吞吐量。副本管理器在每个站点管理站点与站点、存储单元与计算单元接口间的数据流。副本优化器负责副本的选择、动态生成和删除。在副本优化服务执行过程中,网络性能和磁盘i/o也是影响作业调度和副本选择的重要因素。优化算法应通过检查计算单元和各个存储单元之间的可用带宽和存储单元的磁盘i/o来从不同的存储节点获得最优的副本。vazhkudai等人[2,3]表明在网格环境下,磁盘吞吐时间能占用30%的传输时间。因此在计算数据传输时间时,应考虑网络带宽和磁盘吞吐率。这样的优化策略可以更加接近真实的数据网格系统。
  本文在有限的网络带宽和磁盘吞吐能力的情况下,根据不断变化的外部访问特征和副本访问历史记录来对副本进行优化,从而使得用户可以就近访问。整个数据网格系统达到一个负载均衡的状态。
  
  1相关工作
  
  在用户提交作业到作业完成这个过程中,副本管理器对作业的生命周期进行三处优化[4]:
  a)资源代理(rb)决定作业在哪个计算单元上运行,即调度的优化。通过计算一个代价函数来实现:
  cost=getaccesscost()+estimatedqueuingtime()。作业总的执行是作业访问文件时间和作业排队时间之和[5]。其中作业访问数据文件时间包括数据文件读取时间、网络带宽延迟时间和磁盘i/o时间。本文中的作业调度流程如图1所示。
  b) 作业运行中的动态副本选择。一旦作业在计算单元(ce)上运行,它需要访问不同的数据文件。由于一个数据文件在各个网格站点上可能存在多个副本,当一个作业需要访问某个数据文件时,副本优化器(ro)通过调用函数getbestfile()来找到最优的文件副本。
  c)动态副本优化,即触发在第三方站点上复制数据文件。每个站点对所请求的数据文件进行监控和记录。当特定的数据文件成为热点数据时,则可以考虑将该文件复制到最有可能被访问到的第三方站点。本文通过数据文件的前n次访问历史记录来判断该数据文件是否可成为热点副本,并通过一定的算法对其进行复制。

  本文在使用optorsim模拟器的基础上对副本管理器的三处优化进行改进。optorsim通过模拟(欧洲)数据网格中各个独立部件之间的交互作用,从而达到评估不同的数据管理策略——副本优化算法性能的目的。它以edg的结构为基础,包括了所有必需的部件,但是重点是在数据管理的副本机制上。使用optorsim模拟器可以用数据复制与作业调度算法相结合的手段来对不同的算法作出评估,从而最大限度地利用网格资源。
  
  2算法优化
  
  复制机制决定动态产生副本的时间以及副本放置的位置。主要有两种方法,即集中的和分布的动态复制方法。本文根据目前数据网格拓扑结构的特点,在集中式动态复制算法[6]的基础上,提出了一种基于访问历史记录的热点副本产生算法。通过自动产生热点数据的副本,并把副本移动到其他站点上,以求提高数据网格总体的性能。
  
  4结束语
  
  本文在集中式动态副本创建算法的基础上,将热点副本的创建与作业访问数据文件的历史记录相结合,使副本创建更具预见性,并且准确性也有了一定的提高。在此基础上,通过optorsim模拟器,将此算法从两种不同的角度与其他两种算法相比较,并得出了实验数据。 但是对于每次复制操作,不仅网络带宽资源被消耗,而且由于磁盘i/o和cpu利用会使副本服务器负载加重。复制频度必须受到控制,以避免网络和服务器负载过重[10]。本文下一步的工作将对历史访问记录中的n取值进行进一步的研究,并讨论在不同的取值时,算法的优劣,使其做到使整个数据网格系统能够负载均衡,用户可以就近访问所需要的数据文件,为用户提供一种快速、优质的服务。
  
  参考文献:
  [1]foster i, kesselman c, tuecke s. the anatomy of the grid: enabling scalable virtual organizations [j].ijsa, 2001:15(3):20-23.
  [2]vazhkudai s, schopf j. using disk throughput data in perditions of endtoend grid transfers[c]//proc of the 3rd international workshop on grid computing. baltimore:[s.n.],2002:2-4.
  [3]vazhkudais, schopf j. using regression techniques to predict large data transfers[j].the international journal of high performance computing applications, special issue on grid computing: infrastructure and application,2003,17(3):249-268.
  [4]bell w h, cameron d g, ruben c s, et al. evaluation of an economybased file replication strategy for a data grid[c]//proc of the 1st international symposium on cluster computing and the grid. washington dc:ieee computer society,2003:661.
  [5]bell w h,cameron d g, capozza l, et al. simulation of dynamic grid replication strategies in optorsim[c]//proc of the 3rd international workshop on grid computing. london:springerverlag,2002:46-57.
  [6]tang ming,lee b s, tang xueyan, et al. the impact of data replication on job scheduling performance in the data grid[j].future generation computer systems,2006, 22 (3):254-268.
  [7]hua k a, cai ying, sheu s. patching: a multicast technique for true videoondemand services[c]//proc of acm sigmm’ 98. new york: acm, 1998:41-50.
  [8]zipf g k. human behavour and the principle of least effort[m].cambridge, ma:addison wesley, 1994:15-23.
  [9]cameron d g, carvajalschiaffino r, millar a p, et al. evaluating scheduling and replica optimization strategies in optorsim[c]//proc of the4th international workshop on grid computing. washington dc:ieee computer society, 2003:52.
  [10]tang ming, lee b s, yeo c k, et al. dynamic replication algorithms for the multitier data grid [j].future generation computer systems,2005,21(4):775-790. 本文链接:http://www.qk112.com/lwfw/jsjlw/jisuanjiyingyong/244312.html

论文中心更多

发表指导
期刊知识
职称指导
论文百科
写作指导
论文指导
论文格式 论文题目 论文开题 参考文献 论文致谢 论文前言
教育论文
美术教育 小学教育 学前教育 高等教育 职业教育 体育教育 英语教育 数学教育 初等教育 音乐教育 幼儿园教育 中教教育 教育理论 教育管理 中等教育 教育教学 成人教育 艺术教育 影视教育 特殊教育 心理学教育 师范教育 语文教育 研究生论文 化学教育 图书馆论文 文教资料 其他教育
医学论文
医学护理 医学检验 药学论文 畜牧兽医 中医学 临床医学 外科学 内科学 生物制药 基础医学 预防卫生 肿瘤论文 儿科学论文 妇产科 遗传学 其他医学
经济论文
国际贸易 市场营销 财政金融 农业经济 工业经济 财务审计 产业经济 交通运输 房地产经济 微观经济学 政治经济学 宏观经济学 西方经济学 其他经济 发展战略论文 国际经济 行业经济 证券投资论文 保险经济论文
法学论文
民法 国际法 刑法 行政法 经济法 宪法 司法制度 法学理论 其他法学
计算机论文
计算机网络 软件技术 计算机应用 信息安全 信息管理 智能科技 应用电子技术 通讯论文
会计论文
预算会计 财务会计 成本会计 会计电算化 管理会计 国际会计 会计理论 会计控制 审计会计
文学论文
中国哲学 艺术理论 心理学 伦理学 新闻 美学 逻辑学 音乐舞蹈 喜剧表演 广告学 电视电影 哲学理论 世界哲学 文史论文 美术论文
管理论文
行政管理论文 工商管理论文 市场营销论文 企业管理论文 成本管理论文 人力资源论文 项目管理论文 旅游管理论文 电子商务管理论文 公共管理论文 质量管理论文 物流管理论文 经济管理论文 财务管理论文 管理学论文 秘书文秘 档案管理
社科论文
三农问题 环境保护 伦理道德 城镇建设 人口生育 资本主义 科技论文 社会论文 工程论文 环境科学