日期:2023-01-12 阅读量:0次 所属栏目:其他教育
我们利用XML标注技术[1]建成了清人小学注疏五种词源研究语料库,该语料库对清代五部小学注疏词源研究成果的诸多方面有着准确的反映。通过检索该语料库,研究者可以及时而清楚地了解:1.各家对某组语词是否同源的判断;2.各家论证某组语词同源关系所征引的文献证据和语音证据;3.各家研究古今字、通假字、异体字的情况。下文将对该语料库的建设作详细介绍。
二、电子文本的生产
清人小学注疏五种的电子文本由吾师尉迟治平教授及门下弟子共同完成,笔者为主要参与者之一。
五种文本均系手工录入,所用底本之版本信息如下:
《广雅疏证》(中华书局,王氏家刻本影印,1983年版)
《说文解字注》(上海古籍出版社,经韵楼本影印,1981年版)
《尔雅义疏》(上海古籍出版社,郝氏家刻本影印,1983年版)
《方言笺疏》(上海古籍出版社,仁和王文韶红蝠山房校刊本影印,1983年版)
《释名疏证补》(上海古籍出版社,光绪丙申刊本影印,1984年版)
我们在制作以上电子文本的过程中,以“存真”为基本原则,尽量保持典籍原貌。
所有文本文件均采用支持超大字符集的“UTF-8编码”。“UTF-8编码”是国际标准超大字符集统一码“Unicode”的一种变长字符编码,又称“万国码”。用在网页上,可以在同一页面显示简体中文、繁体中文及其他语言,其显示范围远大于“ANSI”。[2]在字体选择上,我们选择了“宋体-方正超大字符集”和“PMingLiU-ExtB”字体,以保证绝大多数古籍汉字的正确录入与显示。即便如此,清人小学注疏五种中依然有少数古文字、俗字、别字、冷僻字等无法正常录入和显示。针对此问题,我们对古籍文本在坚持“存真”的基本原则下,用既有的汉字字形来组字造字,其组字规则及示例如下:
表1:
所用符号 字形结构说明 示例
* 左右结构 明: 日*月
/ 上下结构 皇: 白/王
@ 包含结构 虎: 虍@几
?? 增减部件 虔:虎-几+文
所有文本均系繁体字纯文本,能够进行字符串的全文检索,并能够供诸位学人根据自己需要作进一步加工或标注。
三、清人小学注疏五种的数据建模
(一)构建树形结构图
清人小学注疏五种横跨雅学、说文学两大领域,性质不同,体例不一,具体文档结构更是纷繁复杂。现要集合五种注疏,综合利用,惟有求同存异,小而统之,粗分大类。
大致而言,五种注疏皆包含了序言、正文、附录三个部分。正文部分包含了大量我们需要分析的语言学属性。初步分析,五种注疏的正文部分都是篇目名和逐条小学注疏循环构成的一个整体。
由小学原文和清人注疏构成的单条小学注疏的内部情况虽复杂多样,但各个研究者都可以根据自己的研究目的,对其内容作出自己的分析。因我们的研究主要关乎词源研究,所以我们将单条小学注疏下面细分出一条条分析声义同源的字词关系断语,字词关系断语下面又可以析分出数个声义同源的同源字。
基于词源学的研究初衷,我们画出了清人小学注疏五种文档的树形结构图,如图1:
图1:文档结构树形图
(二)使用XSD Schema进行数据建模
1.设计标记名
鉴于我们需要提取分析的语言属性、语言知识都存储在清人小学注疏五种文档中的正文部分,为了文档结构层次的简洁、经济,我们拟直接以清人小学注疏五种正文作为我们的根元素,序言、附录等暂时被剥离,这不会影响我们工作的开展。另外,由于目前大量主流软件尚不支持汉字标记,我们便采用汉语拼音作为标记。对根元素及各节点子元素的标记分别定义如下:
清人小学注疏五种正文:qingrenxiaoxuezhushu
篇目名: pianmuming
疏证语段:zhushuquanwen
字词关系断语:ziciguanxiduanyu
同源字:tongyuanzi
2.编写扩展名为“xsd”的文件
Schema是强大而灵活的数据建模工具。XML Schema的W3C的推荐标准叫作XSD,它可以准确地描述文档结构,即定义XML文件中允许哪些元素和属性、哪些元素和属性是必需的、哪些是可选的、允许的数据种类以及XML文件内容和结构的其他方面。使用XSD建模的成品是扩展名为“xsd”的源文件。[3]该文件代表了上面我们对清人小学注疏五种文档结构分析的成果,既能够链接到已有的XML文档中,以验证其文档的有效性,也可以作为模式架构,添加到文本编辑器中,以实现XML标记的自动标注。其源代码本文暂略。
四、清人小学注疏五种的标注方法
(一)添加架构
Office2003声称全面支持XML,我们使用其组件Word2003中文版作为XML文档的编辑器。虽然目前还有大量的处理XML文档的专门软件,但它们远不及Word2003通用易得;特别是Word2003对超大字符集的支持功能在很多软件中还未实现,也促使我们选择它作为我们工作的软件平台。[4]
首先,我们用Word2003打开我们制作的清人小学注疏五种电子纯文本。然后在“工具”菜单上,单击“模板和加载项”,然后单击“XML架构”选项卡。单击“添加架构”,浏览并找到要添加到架构库中的XML架构文件(xsd文件),然后单击“打开”。在“架构设置”对话框中,选择所需的选项,在“别名”框中键入架构的名称,最后点击“确定”完成。如图2:
图2:添加架构的方法
(二)半自动标注
添加架构后,Word2003编辑框右边会出现如下“XML结构”任务窗格。我们可以依次在清人小学注疏五种文档中选择相应元素,然后在“XML结构”任务窗格的“选择一种元素并应用于当前的选定内容”框中单击一个元素,完成对该元素的标注,已标注的元素被图3所示红色光带嵌套。标注中或完成标注后,如文档结构不符合架构规则,将会在文档中以紫色波浪线标记出来,并在“XML结构”任务窗格中报告此违规错误。整个标注界面如图3所示:
图3:标注的方法
(三)生成XML文档
完成标注,且通过架构验证的文档可选择“文件”菜单上的“另存为”命令,保存为“qingrenxiaoxuezhushu.xml”文档。为保证其他XML的软件也能阅读并处理我们保存为XML格式的文档数据,我们选择“仅保存数据”备选项。如图4:
图4:生成xml文档
五、清人小学注疏五种的属性提取方法
(一)XML与XSL的整合
XML文档中事先标注过的元素和信息,都可利用XML的可扩展样式表技术加以提取。现欲提取“qingrenxiaoxuezhushu.xml”文档中的“字词关系断语”和“同源字”两元素,可编写“tongyuanzi.xsl”文档,其源代码如下:
)
已标注的“qingrenxiaoxuezhushu.xml”在链接上述“tongyuanzi.xsl”文档后,经IE浏览器解析,可直接转换成我们需要的词源研究资料,包括我们教学中常用的各种同族词、古今字、通假字、异体字等方面的宝贵材料。其转换结果如图5:
图5:样式表转换结果
(二)HTML对XML的整合
超级文本标记语言(即HTML)是一种超文本链接标记语言,依据该标准创建的HTML文件具有极强的描述和链接下级文本的功能。
为此,我们创建了“清人小学注疏五种词源研究语料库.html”文件。该文件可以顺利地整合我们标注好的五种清人小学注疏的XML文档,并为浏览整个语料库提供一个初始界面,该语料库初始界面如图6:
图6:清人小学注疏五种词源研究语料库
六、结语
长期以来,在古汉语研究领域,人们最常用的计算机功能仅仅是能提高阅读速度的全文检索,但这无助于增进对古籍文本的理解。关系数据库技术出现后,人们又将古籍文本的内容分析为字段和记录的形式以存储,从而为人们获得较系统的语言学知识开辟了新的途径。但是关系数据库往往会肢解原古籍文档内容的整体性,从而降低语言学典籍的可读性。
XML有效避免了这些缺陷,它奉行数据存储与数据显示相分离的原则[5],人们可借助自定义标签,从XML文档中无限次地提取自己需要的语言学知识,且能在显示上与源数据相独立。清人小学注疏五种词源研究语料库的建设,是应用XML技术标注处理古籍文档的一次大胆尝试,将为应用XML技术处理古籍文本提供宝贵借鉴。
(本文系教育部人文社会科学研究青年基金项目“清人小学注疏五种词源研究语料库建设及研究”的阶段性成果,项目编号为[11YJC740028])
本文链接:http://www.qk112.com/lwfw/jiaoyulunwen/qtjy/181894.html