日期:2023-01-12 阅读量:0次 所属栏目:档案管理
共词分析的基础是规范的关键词。我们发现,仅从共词分析的角度来看,关键词标注尚欠规范。如无改观,进行共词分析时,在数据源上便出现偏差,研究结果势必会与事实不符。文章的探讨重点,便是如何解决这一问题。
一、相关概念
(一)共词分析
共词分析是在大量文献中两两统计、共同出现的关键词,用统计数据来分析词与词之间的关联强度,并用结构图将这种关系形象直观地展示出来。同一篇文献中两个关键词出现的次数越多,使可认为其关系越密切。由此可以分析所在研究领域的研究热点,该领域各学科的发展过程、特点等。
共词分析大体可分为六个步骤。其一,确定分析的问题;其二,选取分析的词汇集合,如主题词或关键词;其三,筛选出高频词,即共现频次高的词;其四,统计词汇共现的频率,构建共词矩阵;其五,分析共词矩阵的特征;其六,得出研究结论。关键词架起文献数据和可视化分析的桥梁,如何准确、完整地选取关键词,便是成功进行共词分析的重要前提。正确的共词分析研究结果,能为我们提供良好的决策参考,是判断未来学科发展方向的依据。
(二)关键词
二、实证研究
本实证研究以档案学领域的研究热点为主题,通过比较研究法,说明关键词标引规范化在共词分析,乃至整个文献分析领域的重要性。
(一)数据来源
中国知网(China National Knowledge Infrastructure,中国国家知识基础设施,简称CNKI)与维普、万方并称我国三大中文数据库系统。中国知网CNKI以收录文献种类多、数量大,位居三大中文数据库之首。作为知识资源传播共享平台,中国知网获得99%的核心期刊、重要评价性数据库来源期刊授权,文献内容涵盖文史哲、工程科技、信息科技等十大领域。本文数据取自CNKI,采用1979年至2016年数据,即在“学科领域”中检索“档案学”,默认其他条件,于2016年5月8日检索到档案学研究领域的相关文献25990篇。
(二)研究方法
从CNKI下载格式为Refworks的文献题录。使用文本整理器和Editplus对文献题录进行去噪处理,形成BibExcel可以识别处理的文本格式,用BibExcel统计词频,再利用CiteSpaceШ进行聚类分析,绘制可视化图谱。
(三)数据检验
在Bibexcel中以DE为统计标签,统计得到档案学领域论文关键词共计36618个,关键词累计出现频次为176382次,平均频次为4.82次/个。统计分析中发现关键词存在问题如下:
1.词义混用
因为作者用词习惯不同,不同作者存在关键词差异,差异主要体现在同义词、近义词、缩写词等的运用上,如“档案管理”、“档案工作”、“档案事业”等。这些表述各异的关键词虽意义相同,但共词分析却不能共现,造成关键词零星琐碎,词频降低。应对措施是在词频统计前,进行规范化处理,如把“档案数字化”、“数字化档案”、“数字化工作”等统一表述为“数字档案”。
2.达意宽泛
有的关键词存在达意宽泛问题,如表1所示。这些关键词不仅不能说明研究主题,相反倒增加了共词矩阵的维数,使其过于繁琐,给后续数据统计分析带来噪音干扰。在此,我们把这类关键词视同是无关关键词,果断删除。
3.分类不当
分类不当又可以分为分类不细和分类过细。
(1)分类不细。如关键词“档案学研究”,单从词义理解,无从知道文章是研究档案学的基础理论与发展,还是研究档案信息资源的开发与利用,亦或是研究档案保护技术。理解有歧义,概念不清,分析便有偏差。我们要根据文献“题名”和“摘要”,研读文献内容,对这类关键词进行修正,力求具体、到位,如把“档案学研究”细化为“档案理论”、“档案利用”或“档案保护”。
(2)分类过细。如研究对象为国内外档案,“文书档案”、“科技档案”、“人事档案”、“数字档案”、“高校档案”、“教学档案”、“职专档案”、“教学档案”、“基建档案”等关键词,在做关键词共现研究时会因其频次过低而不得进入研究视野。因而,在做相关研究时,需下功夫调整关键词,如添加上位词“实体档案”、“数字档案”等。
(四)数据分析
我们抽取频次为300以上的高频关键词,建成表2,此表印证了关键词标引普遍存在的问题。 一是研究主题相同的关键词重复出现,如“档案数字化”、“数字档案”、“数字化档案”;“数字化”、“数字化工作”等。二是语意相近的关键词频繁出现,如“档案利用”、“开发利用”;“现代化管理”、“档案管理现代化”等。三是达意宽泛的关键词屡见不鲜,如“档案”、“建设”、“管理”等。表3集中汇总了表2出现的问题关键词的词频。
共词分析所取的关键词不建议过多,否则会生成高维矩阵,导致数据处理繁琐。聚类分析中如果选取300频次以上的高频词分析其共现情况,由于上述三类问题关键词的存在,势必会挤掉其他有研究意义的关键词,造成数据源偏颇,数据分析失误。
根据文章提出的对关键词规范化处理的原则和方法,对关键词作了删除、整合、增补等规范化操作,得到如图2所示基于关键词共现的多维聚类图。
依据CiteSpaceШ聚类分析结果,我们直观地将档案学研究主题分成了9类:档案事业研究、档案信息研究、事业单位研究、档案资料研究、档案馆工作研究、现行文件研究、文书工作研究、档案专业研究、情报工作者研究。如需详细了解各类研究内容以及未来发展趋势,还要对以上聚类结果做进一步研究分析。
三、规范关键词
(一)规范原则
真实。规范的关键词首先要具有真实性,真实体现文献的内容,真实反映作者的立意和结论。这既是对文献和作者的尊重,也是研究人员应遵守的最基本的行为原则。
准确。进行有效共词分析的关键词一定要准确,这样才能有效反映它们之间的相关性。因此,关键词应准确表达作者的研究成果、文献的本质特征。
专业。规范关键词标引需要研究人员具有相应的专业知识,了解研究领域的现状,熟悉常用的研究方法,掌握一般的研究步骤。有能力从文献题名、关键词以及摘要中文献的核心内容,准确增删核准关键词,具备规范关键词的专业素养。
价值。关键词的标注一般包括参考文献题名、摘要,因此题名摘要是规范关键词重要的信息源,要从中选取有价值的信息,形成关键词。共词分析需要的是这样的关键词,它不仅体现了文献的研究对象、研究内容、研究方法,还要包括研究过程、研究结论等信息。
(二)明确方法
审读。关键词标引的第一步是审读文献。要依据文献标题、摘要、引言、结论,继而浏览全文。要分析文献主题提炼关键词。
抽词。中国科协《关于在学术论文中规范关键词选择的决定(试行)》指出关键词一般按以下顺序抽取:一是研究所属二级学科名称,例如图书情报、档案管理的二级学科图书馆学、情报学、档案学等。二是研究成果名称或若干个成果的总类别名称。三是其他有利于检索和文献利用的关键词。
规范。关键词的选取要规范,一是对照国家标准《学科分类与代码》等词表,选取关键词;二是选择新学科、新术语为关键词,可通过CNKI数据库检索,网络搜索引擎查找,选用检索概率相对大的自由词。
审校。审校的目的主要检查文献关键词的提炼是否真实全面准确,有无遗漏关键词,是否随意选用通用词。二是标引顺序是否正确,是否为上位词在前,下位词在后,是否是反映论文研究目的、对象、范围、方法、过程的关键词在前,反映研究结果、意义等的关键词在后。
(三)相关建议
档案学研究的基础工作的重要组成部分是关键词标引。它是档案学文献获得的基本手段,其工作量之大,需要从作者到杂志审编人员,到图书馆关键词标引工作人员都要高度重视,要从细微入手,着眼大局,齐心协力来完成。
重视标引工作。关键词能够揭示文献内容。标引质量的好坏,直接影响到学术成果能否有效利用和广泛传播。因此,从作者到审编,再到图书馆工作人员要对关键词标引工作充分重视,并落实到具体行动上,众志成城,提高关键词标引的规范性和统一性。
提高人员素质。关键词标引工作业务性强,科研工作人员不仅要有档案学专业知识,还要有百科知识素养。这就要求我们不断探索积累经验,增进学习交流,强化业务素质,以认真负责的工作态度,根据档案学界公认的标引标准,做到不漏标,不过度标引。
加强标引管理。把关键词标引工作纳入科研及其相关管理的常规工作中去。稳定标引人员队伍,实施标引工作量化管理,定期对其进行总结分析,并举办专题讨论会推广经验,完善关键词标引工作规则。
规范标引操作。认真收集整理新增关键词,在充分讨论的基础上,邀请相关专家鉴定,完善《学科分类与代码》及《汉语主题词表》,增加档案研究领域中的新专业词汇,修订完善《中国档案主题词表》补充版。
四、结束语
从浩如烟海的文献中总结和回顾关键词标引研究成果,寻找有待完善的问题,目的是廓清关键词概念、明确关键词标引方法、指导促进关键词标引工作。任何一项研究都永无止境,关键词研究同样期待新成果,期待各级各类人员从观念上重视、行动上落实、成果上推广关键词标引经验,研究出切实可行、行之有效的关键词标引方法,进一步提高学术论文的检索效率,扩大其影响力。
本文链接:http://www.qk112.com/lwfw/guanlilunwen/danganguanli/144111.html上一篇:探索医院医德医风档案管理新思路
下一篇:对高校财务档案管理工作的思考