北京数字档案馆项目数据清理情况分析

日期：2023-01-12 阅读量：0次所属栏目：档案管理

　　北京市档案馆档案管理系统经过十余年的应用，目前积累的存储数据非常庞大，其中档案机读目录1400余万条，档案数字化副本7000余万页，存储量达到80TB。由于数据库设计约束不足、数据录入错误等多种原因导致系统中存在脏数据（dirty data，是指数据集中存在较多相似重复的、不一致的、格式不匹配的、不符合逻辑的、带有空缺值的以及没有实际作用的数据）。[1]这些数据直接拉低了档案数据质量，影响档案检索查询效果。随着北京市数字档案馆项目的深入推进，为更好地配合北京数字档案馆项目建设工作，北京市档案馆在2016年开展了档案数据集中清理工作。

　　一、北京市档案馆现有数据情况

　　北京市档案馆馆藏数据主要包括：各类档案数字化副本（纸质文书档案、纸质照片档案、音视频档案等数字化副本）、电子文件（含数码照片）、档案机读目录数据、档案系统管理数据等。其中档案系统管理数据通常包括档案实体表、档案存址表、档案原缺表、利用者信息表、调归卷信息表等数据。

　　这些数据可分为结构化数据和非结构化数据两类。结构化数据是指存储在数据库里，可以用二维表结构来逻辑表达实现的数据。非结构化数据无法用数字或统一的结构表示，如文本、图像、声音、网页等，称之为非结构化数据。结构化数据包括档案机读目录数据和档案系统管理数据。非结构化数据包括各类数字化副本、电子文件、数码照片等。两类数据存在问题和解决的方法不同。结构化数据整体存储在数据库中，数据清理依赖数据库执行指令完成。非结构化数据是以单个文件形式存储在磁盘驱动器中，可以人工进行清理，但当数据量非常大的情况下，则需依靠定制开发计算机程序完成。在向北京数字档案馆系统迁移数据的过程中，纸质档案数字化副本和档案机读目录是存在问题最多、清理工作量最大的两类数据资源。因此，数据清理的重点也集中在纸质档案数字化副本和档案机读目录数据上。

　　二、北京市档案馆数据质量存在的典型问题（以机读目录和纸质档案数字化副本为例）

　　（一）档案机读目录数据存在以下四类问题：

　　1.重复数据

　　数据重复主要有两种情况，一种是在同一个库表中存在全部字段值完全相同的记录；另一种是在不同的库表中存在相同的记录。产生的主要原因均为数据被重复导入，数据库没有唯一性校验造成的。应保留一份数据，删除重复数据。

　　2.缺失数据

　　数据库表中很多记录缺失关键字段值，关键字段例如“全宗号”“目录号”“案卷号”“档号”“题名”“开控状态”等字段。产生问题的主要原因是目录在手工录入过程中遗漏造成的，数据库在设计上完整性约束不足也是原因之一。这些关键字段值应进行补充以保证数据检索、利用的需求得以满足。

　　3.错误数据

　　数据库表中有的记录中“档号”字段值编制错误，例如照片档案档号结构应该是“全宗号-目录号-案卷号-张号”，但是实际录入的是“全宗号-目录号-案卷号”。有的记录赋值错误，例如有的“张页数”字段中含有“+”等非法字符，其值域范围本应仅限于正整数。有的记录编制位数不足，例如“起始页号”字段值按照目前标准应该是5位，但是早期的记录只有3位或4位。这些错误的原因有的是由于手工录入错误造成的，有的是由于字段值编制标准发生变化造成的。错误的数据应通过数据清理进行修正。

　　4.无效数据

　　数据库表中的历史测试数据，暂存数据等，应通过清理工作直接删除。

　　（二）数字化副本数据存在四类问题

　　1.数据命名不规范

　　数字化副本文件命名有如下几类：3位流水号.tif、4位流水号.tif、5位流水号.tif、a_p流水号.tif、档号.tif。产生这种情况的原因是由于不同时期数字化加工采用的标准不同，还有一些不符合规范采用手工命名导致的特殊命名方式。不符合命名规范的数字化副本在数据管理和数据挂接中存在隐患，容易产生挂接错误等问题，应采用统一的命名标准，保证数据在案卷级和文件级挂接的可靠性。

　　2.数据质量不可靠

　　个别数字化副本存在无法打开的情况，属于数据扫描质量问题。错误的数据会导致无法挂接，系统无法正常读取数据。可以使用软件检测图像的可读性，保证数据质量。

　　3.数据保存不唯一

　　有些档案的数字化副本在系统中存在两份，彩色一份、黑白一份，黑白的是早期的数字化成果，彩色的是近期数字化成果。重复数据不利于数据管理，也浪费存储空间，选取图像质量好的副本进行存储即可。

　　4.存储方式不?y一

　　数据在磁盘上的存储方式不同，存在多种形式。有在线存储管理方式和离线存储脱机管理方式两类。在线存储管理方式使用不同的系统其数据具体存储方式也不相同。建议将同类型数据集中管理采取统一的数据存储方式。

　　三、北京市档案馆数据清理的步骤

　　档案数据清理的步骤为：数据分析、确定清理工作流程和清理规则、数据清理验证、清理脏数据、干净数据整理和核对。

　　（一）数据分析

　　数据分析是整个数据清理流程的第一步。数据分析的作用是在于得到一些数据的特征，根据这些属性可以确定合适的检测算法和清理规则，因此，数据分析也是数据清理中的非常重要的一步。档案机读目录采用结构化数据库管理，因此对数据库表进行分析是第一步。通过数据库表的单表查询和多表查询功能可以发现重复数据、不完整数据、错误数据和无效数据。数字化副本一方面实体存储在服务器磁盘，另一方面其命名、存储位置等信息也是由数据库保存，所以其数据问题可以从文件实体角度发现，也可以从数据表的查询对比中发现。　　（二）确定清理工作流程和清理规则

　　数据清理工作根据数据分析的结果及数据所属标准定义清理工作流。数据清理的标准来自于各类数据所对应的数字档案馆标准和规范，这些标准和规范同时也是数据分析问题的来源和依据。由于各类数据存在的问题不同，清理的方法也不一样，要根据实际数据情况确定需要执行的数据清理的具体流程。

　　（三）数据清理验证

　　这一个阶段主要验证数据清理的正确性、评估工作流程的效率。可以根据数据分析情况和清理规则对部分待清理数据进行测试，通过测试发现问题，提高效率和准确性。

　　（四）清理“脏数据”

　　经数据清理验证无误后，可以按照数据清理验证阶段制定的规则对数据进行清理。但在这一个阶段特别要注意数据的安全性，应首先备份源数据，再对数据源进行数据清理，避免操作不当对数据造成的严重损失。清理过程可能持续时间会比较长，应该做好记录和管理工作。数据的修改有可能需要人工参与，需要相关部门的配合。

　　（五）干净数据整理和核对

　　数据清理工作完成后，将干净的数据进行整理和核对。可以将干净的数据集中整理存储，有必要的话可以再备份一份，可以有效地保障数据的安全性。

　　四、数据清理工作的经验总结和相关建议

　　（一）数据清理工作的几点经验

　　1.控制清理时间。数据集中清理工作尽管工作量很大，但时间不宜过长，一般应控制在4个月以内。

　　2.做好过程管理。要提前制定?细的清理计划，严格按照时间进度进行清理，并做好相关工作记录，清理过程中暂不接收导入新数据。

　　3.保证清理质量。数据清理工作主要依靠数据库技术、软件批量重命名技术、图形图像质量查验技术等，在具体操作之前要进行必要的测试。例如对数据库值的转换，从日期型转换成字符型就有可能出现丢失数据现象。

　　4.部门协同工作。数据清理是一个复杂的工作，需要多个部门共同实施。以北京市档案馆为例，在数据清理过程中，信息化部门负责牵头和管理工作，运维公司负责技术支撑工作，档案馆业务处室负责清理标准的提供和特殊数据修改的审核，各部门各司其职，协同工作。

　　（二）数据清理工作要把好数据入口关

　　数据清理工作反映出档案部门对数据应该遵从的唯一性、完整性、准确性问题还要更加重视。一方面在数字档案馆系统建设的时候对数据库表的设计更加完善，使其具备良好的约束性，例如在系统设计过程中加强对完整性、准确性、可用性和安全性检测，设计良好的四性检测方案；另一方面要加强管理，对于错误数据或者问题数据要及时发现并纠正，避免脏数据进入系统；第三是要档案各类数据标准应趋于稳定一致，如果标准发生了改变，原存储数据需及时修正。

　　随着大数据时代的来临，档案数据量随着信息化时代发展已经进入到海量的现状。期望一次数据清理就能够解决数十年来的问题也不现实，应该在日常管理中对数据定期进行分析，及时发现、解决问题，为北京数字档案馆项目建设提供优质的数据资源基础工作。

本文链接：http://www.qk112.com/lwfw/guanlilunwen/danganguanli/143763.html

上一篇：论档案目录体系与政务信息资源目录体系的交互融合

下一篇：大数据时代档案管理模式变化研究

期刊推荐

论文中心 更多

发表指导
期刊知识
职称指导
论文百科
写作指导
论文指导: 论文格式论文题目论文开题参考文献论文致谢论文前言
教育论文: 美术教育小学教育学前教育高等教育职业教育体育教育英语教育数学教育初等教育音乐教育幼儿园教育中教教育教育理论教育管理中等教育教育教学成人教育艺术教育影视教育特殊教育心理学教育师范教育语文教育研究生论文化学教育图书馆论文文教资料其他教育
医学论文: 医学护理医学检验药学论文畜牧兽医中医学临床医学外科学内科学生物制药基础医学预防卫生肿瘤论文儿科学论文妇产科遗传学其他医学
经济论文: 国际贸易市场营销财政金融农业经济工业经济财务审计产业经济交通运输房地产经济微观经济学政治经济学宏观经济学西方经济学其他经济发展战略论文国际经济行业经济证券投资论文保险经济论文
法学论文: 民法国际法刑法行政法经济法宪法司法制度法学理论其他法学
计算机论文: 计算机网络软件技术计算机应用信息安全信息管理智能科技应用电子技术通讯论文
会计论文: 预算会计财务会计成本会计会计电算化管理会计国际会计会计理论会计控制审计会计
文学论文: 中国哲学艺术理论心理学伦理学新闻美学逻辑学音乐舞蹈喜剧表演广告学电视电影哲学理论世界哲学文史论文美术论文
管理论文: 行政管理论文工商管理论文市场营销论文企业管理论文成本管理论文人力资源论文项目管理论文旅游管理论文电子商务管理论文公共管理论文质量管理论文物流管理论文经济管理论文财务管理论文管理学论文秘书文秘档案管理
社科论文: 三农问题环境保护伦理道德城镇建设人口生育资本主义科技论文社会论文工程论文环境科学

北京数字档案馆项目数据清理情况分析

相关文章

期刊推荐

论文中心 更多

档案管理排行