欢迎光临112期刊网!
网站首页 > 论文范文 > 管理论文 > 档案管理 > 北京数字档案馆项目数据清理情况分析

北京数字档案馆项目数据清理情况分析

日期:2023-01-12 阅读量:0 所属栏目:档案管理


  北京市档案馆档案管理系统经过十余年的应用,目前积累的存储数据非常庞大,其中档案机读目录1400余万条,档案数字化副本7000余万页,存储量达到80TB。由于数据库设计约束不足、数据录入错误等多种原因导致系统中存在脏数据(dirty data,是指数据集中存在较多相似重复的、不一致的、格式不匹配的、不符合逻辑的、带有空缺值的以及没有实际作用的数据)。[1]这些数据直接拉低了档案数据质量,影响档案检索查询效果。随着北京市数字档案馆项目的深入推进,为更好地配合北京数字档案馆项目建设工作,北京市档案馆在2016年开展了档案数据集中清理工作。

  一、北京市档案馆现有数据情况

  北京市档案馆馆藏数据主要包括:各类档案数字化副本(纸质文书档案、纸质照片档案、音视频档案等数字化副本)、电子文件(含数码照片)、档案机读目录数据、档案系统管理数据等。其中档案系统管理数据通常包括档案实体表、档案存址表、档案原缺表、利用者信息表、调归卷信息表等数据。

  这些数据可分为结构化数据和非结构化数据两类。结构化数据是指存储在数据库里,可以用二维表结构来逻辑表达实现的数据。非结构化数据无法用数字或统一的结构表示,如文本、图像、声音、网页等,称之为非结构化数据。结构化数据包括档案机读目录数据和档案系统管理数据。非结构化数据包括各类数字化副本、电子文件、数码照片等。两类数据存在问题和解决的方法不同。结构化数据整体存储在数据库中,数据清理依赖数据库执行指令完成。非结构化数据是以单个文件形式存储在磁盘驱动器中,可以人工进行清理,但当数据量非常大的情况下,则需依靠定制开发计算机程序完成。在向北京数字档案馆系统迁移数据的过程中,纸质档案数字化副本和档案机读目录是存在问题最多、清理工作量最大的两类数据资源。因此,数据清理的重点也集中在纸质档案数字化副本和档案机读目录数据上。

  二、北京市档案馆数据质量存在的典型问题(以机读目录和纸质档案数字化副本为例)

  (一)档案机读目录数据存在以下四类问题:

  1.重复数据

  数据重复主要有两种情况,一种是在同一个库表中存在全部字段值完全相同的记录;另一种是在不同的库表中存在相同的记录。产生的主要原因均为数据被重复导入,数据库没有唯一性校验造成的。应保留一份数据,删除重复数据。

  2.缺失数据

  数据库表中很多记录缺失关键字段值,关键字段例如“全宗号”“目录号”“案卷号”“档号”“题名”“开控状态”等字段。产生问题的主要原因是目录在手工录入过程中遗漏造成的,数据库在设计上完整性约束不足也是原因之一。这些关键字段值应进行补充以保证数据检索、利用的需求得以满足。

  3.错误数据

  数据库表中有的记录中“档号”字段值编制错误,例如照片档案档号结构应该是“全宗号-目录号-案卷号-张号”,但是实际录入的是“全宗号-目录号-案卷号”。有的记录赋值错误,例如有的“张页数”字段中含有“+”等非法字符,其值域范围本应仅限于正整数。有的记录编制位数不足,例如“起始页号”字段值按照目前标准应该是5位,但是早期的记录只有3位或4位。这些错误的原因有的是由于手工录入错误造成的,有的是由于字段值编制标准发生变化造成的。错误的数据应通过数据清理进行修正。

  4.无效数据

  数据库表中的历史测试数据,暂存数据等,应通过清理工作直接删除。

  (二)数字化副本数据存在四类问题

  1.数据命名不规范

  数字化副本文件命名有如下几类:3位流水号.tif、4位流水号.tif、5位流水号.tif、a_p流水号.tif、档号.tif。产生这种情况的原因是由于不同时期数字化加工采用的标准不同,还有一些不符合规范采用手工命名导致的特殊命名方式。不符合命名规范的数字化副本在数据管理和数据挂接中存在隐患,容易产生挂接错误等问题,应采用统一的命名标准,保证数据在案卷级和文件级挂接的可靠性。

  2.数据质量不可靠

  个别数字化副本存在无法打开的情况,属于数据扫描质量问题。错误的数据会导致无法挂接,系统无法正常读取数据。可以使用软件检测图像的可读性,保证数据质量。

  3.数据保存不唯一

  有些档案的数字化副本在系统中存在两份,彩色一份、黑白一份,黑白的是早期的数字化成果,彩色的是近期数字化成果。重复数据不利于数据管理,也浪费存储空间,选取图像质量好的副本进行存储即可。

  4.存储方式不?y一

  数据在磁盘上的存储方式不同,存在多种形式。有在线存储管理方式和离线存储脱机管理方式两类。在线存储管理方式使用不同的系统其数据具体存储方式也不相同。建议将同类型数据集中管理采取统一的数据存储方式。

  三、北京市档案馆数据清理的步骤

  档案数据清理的步骤为:数据分析、确定清理工作流程和清理规则、数据清理验证、清理脏数据、干净数据整理和核对。

  (一)数据分析

  数据分析是整个数据清理流程的第一步。数据分析的作用是在于得到一些数据的特征,根据这些属性可以确定合适的检测算法和清理规则,因此,数据分析也是数据清理中的非常重要的一步。档案机读目录采用结构化数据库管理,因此对数据库表进行分析是第一步。通过数据库表的单表查询和多表查询功能可以发现重复数据、不完整数据、错误数据和无效数据。数字化副本一方面实体存储在服务器磁盘,另一方面其命名、存储位置等信息也是由数据库保存,所以其数据问题可以从文件实体角度发现,也可以从数据表的查询对比中发现。   (二)确定清理工作流程和清理规则

  数据清理工作根据数据分析的结果及数据所属标准定义清理工作流。数据清理的标准来自于各类数据所对应的数字档案馆标准和规范,这些标准和规范同时也是数据分析问题的来源和依据。由于各类数据存在的问题不同,清理的方法也不一样,要根据实际数据情况确定需要执行的数据清理的具体流程。

  (三)数据清理验证

  这一个阶段主要验证数据清理的正确性、评估工作流程的效率。可以根据数据分析情况和清理规则对部分待清理数据进行测试,通过测试发现问题,提高效率和准确性。

  (四)清理“脏数据”

  经数据清理验证无误后,可以按照数据清理验证阶段制定的规则对数据进行清理。但在这一个阶段特别要注意数据的安全性,应首先备份源数据,再对数据源进行数据清理,避免操作不当对数据造成的严重损失。清理过程可能持续时间会比较长,应该做好记录和管理工作。数据的修改有可能需要人工参与,需要相关部门的配合。

  (五)干净数据整理和核对

  数据清理工作完成后,将干净的数据进行整理和核对。可以将干净的数据集中整理存储,有必要的话可以再备份一份,可以有效地保障数据的安全性。

  四、数据清理工作的经验总结和相关建议

  (一)数据清理工作的几点经验

  1.控制清理时间。数据集中清理工作尽管工作量很大,但时间不宜过长,一般应控制在4个月以内。

  2.做好过程管理。要提前制定?细的清理计划,严格按照时间进度进行清理,并做好相关工作记录,清理过程中暂不接收导入新数据。

  3.保证清理质量。数据清理工作主要依靠数据库技术、软件批量重命名技术、图形图像质量查验技术等,在具体操作之前要进行必要的测试。例如对数据库值的转换,从日期型转换成字符型就有可能出现丢失数据现象。

  4.部门协同工作。数据清理是一个复杂的工作,需要多个部门共同实施。以北京市档案馆为例,在数据清理过程中,信息化部门负责牵头和管理工作,运维公司负责技术支撑工作,档案馆业务处室负责清理标准的提供和特殊数据修改的审核,各部门各司其职,协同工作。

  (二)数据清理工作要把好数据入口关

  数据清理工作反映出档案部门对数据应该遵从的唯一性、完整性、准确性问题还要更加重视。一方面在数字档案馆系统建设的时候对数据库表的设计更加完善,使其具备良好的约束性,例如在系统设计过程中加强对完整性、准确性、可用性和安全性检测,设计良好的四性检测方案;另一方面要加强管理,对于错误数据或者问题数据要及时发现并纠正,避免脏数据进入系统;第三是要档案各类数据标准应趋于稳定一致,如果标准发生了改变,原存储数据需及时修正。

  随着大数据时代的来临,档案数据量随着信息化时代发展已经进入到海量的现状。期望一次数据清理就能够解决数十年来的问题也不现实,应该在日常管理中对数据定期进行分析,及时发现、解决问题,为北京数字档案馆项目建设提供优质的数据资源基础工作。

本文链接:http://www.qk112.com/lwfw/guanlilunwen/danganguanli/143763.html

论文中心更多

发表指导
期刊知识
职称指导
论文百科
写作指导
论文指导
论文格式 论文题目 论文开题 参考文献 论文致谢 论文前言
教育论文
美术教育 小学教育 学前教育 高等教育 职业教育 体育教育 英语教育 数学教育 初等教育 音乐教育 幼儿园教育 中教教育 教育理论 教育管理 中等教育 教育教学 成人教育 艺术教育 影视教育 特殊教育 心理学教育 师范教育 语文教育 研究生论文 化学教育 图书馆论文 文教资料 其他教育
医学论文
医学护理 医学检验 药学论文 畜牧兽医 中医学 临床医学 外科学 内科学 生物制药 基础医学 预防卫生 肿瘤论文 儿科学论文 妇产科 遗传学 其他医学
经济论文
国际贸易 市场营销 财政金融 农业经济 工业经济 财务审计 产业经济 交通运输 房地产经济 微观经济学 政治经济学 宏观经济学 西方经济学 其他经济 发展战略论文 国际经济 行业经济 证券投资论文 保险经济论文
法学论文
民法 国际法 刑法 行政法 经济法 宪法 司法制度 法学理论 其他法学
计算机论文
计算机网络 软件技术 计算机应用 信息安全 信息管理 智能科技 应用电子技术 通讯论文
会计论文
预算会计 财务会计 成本会计 会计电算化 管理会计 国际会计 会计理论 会计控制 审计会计
文学论文
中国哲学 艺术理论 心理学 伦理学 新闻 美学 逻辑学 音乐舞蹈 喜剧表演 广告学 电视电影 哲学理论 世界哲学 文史论文 美术论文
管理论文
行政管理论文 工商管理论文 市场营销论文 企业管理论文 成本管理论文 人力资源论文 项目管理论文 旅游管理论文 电子商务管理论文 公共管理论文 质量管理论文 物流管理论文 经济管理论文 财务管理论文 管理学论文 秘书文秘 档案管理
社科论文
三农问题 环境保护 伦理道德 城镇建设 人口生育 资本主义 科技论文 社会论文 工程论文 环境科学