日期:2023-01-12 阅读量:0次 所属栏目:档案管理
在大数据时代背景下,人们越来越认识到自身数据对管理的重要性,档案是直接形成的历史记录,是对原始数据的记录、收集、整理、保管、利用等,随着信息量的增加,保存社会档案越来越复杂,档案行业管理越来越麻烦,大数据时代背景下的档案利用服务需要进一步探讨。
一、大数据时代
随着信息时代的到来,数据增长越来越快,人们生活步入大数据时代,大数据是由数量巨大、结构复杂、类型众多数据构成的数据集合,是海量的非结构化数据,基于云计算的数据处理与应用模式通过数据的集成共享交叉复用形成的智力资源和知识服务能力,需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,具有数量大、类型繁多、价值密度低、速度快时效高的特点,从某种程度上说,大数据是数据分析的前沿技术,简言之从各种各样类型的数据中快速获得有价值信息的能力就是大数据技术。现代大型企业,档案部门主管公司档案信息资料,将公司各单位部门信息统一管理,以便公司需要时快速找到相关信息,近年来随着电子文件的广泛应用,扫描图像、传真、电子表格、演示文档、照片、视频片段等非结构化数据直线上升,数字档案馆数据量直线上升,数据时代真正来临。
二、大数据时代背景给档案服务带来的挑战
在大数据时代背景下,档案管理已由纸质档案发展到数字化阶段,档案馆作为保存档案、提供档案、为社会服务的文化机构,必然贮存大量的信息量,档案信息资源阶梯式增长,现有的档案工具手段已不能满足数字化档案管理,计算机数据库的应用顺势发展起来,提高档案资料管理的有效性,大数据时代背景下的数字档案馆藏量具有数据量大、媒体形式多的特点,给档案利用服务系统带来了不小的挑战。
(一)在海量数据中如何查询档案信息
随着信息技术的广泛应用,数据库信息技术不断发展,电子文件数据信息量暴增,档案信息保存的文件相应增多,传统的手工著录、卡片检索已不能满足企业的需求,在档案信息数据处理过程中,经常会遇到文件找不到、查询性能低、甚至出现服务器不响应一系列难题,应用以往的查询服务方法已经赶不上大数据时代发展的步伐,计算机辅助档案资料管理变得更加便捷方便,但是在大数据时代,档案信息化不断推进,如何进行档案查询,尤其是近来档案数量的急剧增多,档案数据甚至出现胀库,档案查询检索性能下降,反应迟钝,如何精准的在海量数据中找到所需信息,是档案利用服务首先需要解决的问题。
(二)在海量数据中如何抽取有用的信息
如今,档案管理用户已不满足于对数据及文件的利用,而是希望获得数据及文件隐含的知识,也就是说,现在档案管理的趋势是知识管理,档案利用服务也应由提供数据信息转变为知识供给,但知识不是简单的数据信息,需要经过抽取和挖掘才能从中得到有用信息,在海量数据中,仅仅依靠人工挖掘信息已不能满足大数据时代,如何提供给用户挖掘有用信息,依靠信息技术进行数据挖掘,这是当前档案利用服务的任务。
三、大数据时代背景下档案利用服务的数据挖掘
(一)档案业务流程转变
传统的档案业务流程包括收集、整理、保存、利用,其中档案利用采用的原始数据,随着电子文件的广泛应用,档案数据信息量越来越大、媒体形式颇多,传统的档案流程已不能满足用户对信息数据的使用,原始数据的利用比较困难,数据查询性能下降,甚至无法及时响应,延误资料的使用,档案数据库需要更新,及时优化IT结构,在找寻档案数据前加入数据挖掘这一步骤,通过模糊识别对海量数据及多媒体数据进行筛选,方便用户在万千信息中找寻自己所需要的信息,优化数据查询性能,提高档案服务质量,这是解决档案利用服务的一条有效途径。
(二)数据挖掘的应用
怎样从大批量原始数据中筛选出有应用价值的信息,提供给不同用户作为参考信息,数据挖掘技术的应用使得该问题得到解决。概括地说,数据挖掘便是从海量的、不完整的、效果差的、未经处理的数据中,提取具有潜在价值的信息与知识的过程。一般数据挖掘种类划分为结构型数据挖掘、web数据挖掘及文本数据挖掘等。数据挖掘应用于海量档案信息筛选过程中,简化了档案信心提取程序,提高了档案利用服务效率。文本挖掘是数据挖掘的基本构成部分,在数据提取过程中应用最广泛,因此被称作文字探勘、文本数据挖掘等,可简单地理解为文字分析,其目的就是经过文本处理后能获取有价值的信息和知识。有价值信息的提取一般分为两个步骤是分类与预测,文本挖掘就是以数据分析为基础,然后加上某些衍生语言特征或者消除杂音,随后插入到数据库中,形成结构化数据,最后完成评价与信息传递。“高品质”的文本挖掘一般是说某类组合的关联性、独特性与实用性。文本数据挖掘在众多基础领域普遍存在,例如数理统计、智能机器、声像数据转换,归纳起来无非就是利用文本信息筛选、文本划分、文本聚类、文本数据压缩、文本数据处理;文本挖掘应用最常见的领域包括信息访问(信息搜索、信息浏览、信息过滤、信息报告)、知识发现(数据预测、数据分析)。
(三)数据挖掘平台的应用
数据挖掘技术是保证大数据背景下档案服务的质量的有效途径,数据挖掘平台是文本智能数据处理中心,建立在独特地模糊识别及音视频识别技术之上,抽取其中内容进行挖掘,提供用户搜索应用服务,档案服务从数据的收集、挖掘及智能搜索等步骤实现,将数据结果显示在数据挖掘平台上。档案资源数据挖掘包括三方面,首先是对音视频内容的检索,自动识别关键帧,区分定位视频中的不同内容,提高视频处理的能力;其次是对语义的检索,这是常见的搜索方式,只需提供计算机识别的语言即可;最后是档案智能化辅助分类,从历史分类中提取档案分类,实现文献的自动分类,促进辅助分类的准确度,提高用户整理效率,支持多维度动态分类。文本数据处理层是建立数据挖掘平台的载体,其根本目的是以特殊的信息论及概率论的前提下的模式辨识技术和音视频辨识技术,提取具有重要价值的信息,为外围提供搜索应用服务。所以,数据挖掘平台科通过采集数据、数据分析、数据挖掘、智能搜索应用平台,将多类型数据在采集平台上完成层次化的数据采集。
四、结束语
综上所述,大数据时代是科技进步的产物,面对这样的新形势,我们必须以数据挖掘与文本挖掘为基础,从而挖掘档案间的内在关联,探索档案信息中潜藏的有价值信息,建立智能化处理平台满足不同客户个性化的需求。
本文链接:http://www.qk112.com/lwfw/guanlilunwen/danganguanli/145269.html下一篇:高校档案管理网络化刍议