欢迎光临112期刊网!
网站首页 > 论文范文 > 教育论文 > 其他教育 > 基于XML的清人小学注疏五种词源研究 语料库的研制和应用

基于XML的清人小学注疏五种词源研究 语料库的研制和应用

日期:2023-01-12 阅读量:0 所属栏目:其他教育


  《广雅疏证》《说文解字注》《尔雅义疏》《方言笺疏》《释名疏证补》这五部清代小学注疏作品,不仅保存了历代探索字词源流丰富的诂训资料,而且能以“因声求义”之法疏解词义、补证理据、说解词源,堪称传统词源研究的一座宝库。现代先进的信息技术,为我们利用这些古籍开展现代词源学研究提供了有力支撑。

  我们利用XML标注技术[1]建成了清人小学注疏五种词源研究语料库,该语料库对清代五部小学注疏词源研究成果的诸多方面有着准确的反映。通过检索该语料库,研究者可以及时而清楚地了解:1.各家对某组语词是否同源的判断;2.各家论证某组语词同源关系所征引的文献证据和语音证据;3.各家研究古今字、通假字、异体字的情况。下文将对该语料库的建设作详细介绍。

  二、电子文本的生产

  清人小学注疏五种的电子文本由吾师尉迟治平教授及门下弟子共同完成,笔者为主要参与者之一。

  五种文本均系手工录入,所用底本之版本信息如下:

  《广雅疏证》(中华书局,王氏家刻本影印,1983年版)

  《说文解字注》(上海古籍出版社,经韵楼本影印,1981年版)

  《尔雅义疏》(上海古籍出版社,郝氏家刻本影印,1983年版)

  《方言笺疏》(上海古籍出版社,仁和王文韶红蝠山房校刊本影印,1983年版)

  《释名疏证补》(上海古籍出版社,光绪丙申刊本影印,1984年版)

  我们在制作以上电子文本的过程中,以“存真”为基本原则,尽量保持典籍原貌。

  所有文本文件均采用支持超大字符集的“UTF-8编码”。“UTF-8编码”是国际标准超大字符集统一码“Unicode”的一种变长字符编码,又称“万国码”。用在网页上,可以在同一页面显示简体中文、繁体中文及其他语言,其显示范围远大于“ANSI”。[2]在字体选择上,我们选择了“宋体-方正超大字符集”和“PMingLiU-ExtB”字体,以保证绝大多数古籍汉字的正确录入与显示。即便如此,清人小学注疏五种中依然有少数古文字、俗字、别字、冷僻字等无法正常录入和显示。针对此问题,我们对古籍文本在坚持“存真”的基本原则下,用既有的汉字字形来组字造字,其组字规则及示例如下:

  表1:

  所用符号 字形结构说明 示例

  * 左右结构 明: 日*月

  / 上下结构 皇: 白/王

  @ 包含结构 虎: 虍@几

  ?? 增减部件 虔:虎-几+文

  

  所有文本均系繁体字纯文本,能够进行字符串的全文检索,并能够供诸位学人根据自己需要作进一步加工或标注。

  三、清人小学注疏五种的数据建模

  (一)构建树形结构图

  清人小学注疏五种横跨雅学、说文学两大领域,性质不同,体例不一,具体文档结构更是纷繁复杂。现要集合五种注疏,综合利用,惟有求同存异,小而统之,粗分大类。

  大致而言,五种注疏皆包含了序言、正文、附录三个部分。正文部分包含了大量我们需要分析的语言学属性。初步分析,五种注疏的正文部分都是篇目名和逐条小学注疏循环构成的一个整体。

  由小学原文和清人注疏构成的单条小学注疏的内部情况虽复杂多样,但各个研究者都可以根据自己的研究目的,对其内容作出自己的分析。因我们的研究主要关乎词源研究,所以我们将单条小学注疏下面细分出一条条分析声义同源的字词关系断语,字词关系断语下面又可以析分出数个声义同源的同源字。

  基于词源学的研究初衷,我们画出了清人小学注疏五种文档的树形结构图,如图1:

  

  

  

  

  

  

  

  

  

  

  

  图1:文档结构树形图

  (二)使用XSD Schema进行数据建模

  1.设计标记名

  鉴于我们需要提取分析的语言属性、语言知识都存储在清人小学注疏五种文档中的正文部分,为了文档结构层次的简洁、经济,我们拟直接以清人小学注疏五种正文作为我们的根元素,序言、附录等暂时被剥离,这不会影响我们工作的开展。另外,由于目前大量主流软件尚不支持汉字标记,我们便采用汉语拼音作为标记。对根元素及各节点子元素的标记分别定义如下:

  清人小学注疏五种正文:qingrenxiaoxuezhushu

  篇目名: pianmuming

  疏证语段:zhushuquanwen

  字词关系断语:ziciguanxiduanyu

  同源字:tongyuanzi

  2.编写扩展名为“xsd”的文件

  Schema是强大而灵活的数据建模工具。XML Schema的W3C的推荐标准叫作XSD,它可以准确地描述文档结构,即定义XML文件中允许哪些元素和属性、哪些元素和属性是必需的、哪些是可选的、允许的数据种类以及XML文件内容和结构的其他方面。使用XSD建模的成品是扩展名为“xsd”的源文件。[3]该文件代表了上面我们对清人小学注疏五种文档结构分析的成果,既能够链接到已有的XML文档中,以验证其文档的有效性,也可以作为模式架构,添加到文本编辑器中,以实现XML标记的自动标注。其源代码本文暂略。

  四、清人小学注疏五种的标注方法

  (一)添加架构

  Office2003声称全面支持XML,我们使用其组件Word2003中文版作为XML文档的编辑器。虽然目前还有大量的处理XML文档的专门软件,但它们远不及Word2003通用易得;特别是Word2003对超大字符集的支持功能在很多软件中还未实现,也促使我们选择它作为我们工作的软件平台。[4]

  首先,我们用Word2003打开我们制作的清人小学注疏五种电子纯文本。然后在“工具”菜单上,单击“模板和加载项”,然后单击“XML架构”选项卡。单击“添加架构”,浏览并找到要添加到架构库中的XML架构文件(xsd文件),然后单击“打开”。在“架构设置”对话框中,选择所需的选项,在“别名”框中键入架构的名称,最后点击“确定”完成。如图2:

  

  

  

  

  

  

  

  

  

  

  

  

  

  图2:添加架构的方法

  (二)半自动标注

  添加架构后,Word2003编辑框右边会出现如下“XML结构”任务窗格。我们可以依次在清人小学注疏五种文档中选择相应元素,然后在“XML结构”任务窗格的“选择一种元素并应用于当前的选定内容”框中单击一个元素,完成对该元素的标注,已标注的元素被图3所示红色光带嵌套。标注中或完成标注后,如文档结构不符合架构规则,将会在文档中以紫色波浪线标记出来,并在“XML结构”任务窗格中报告此违规错误。整个标注界面如图3所示:

  

  

  

  

  

  

  

  

  

  

  

  

  

  图3:标注的方法

  (三)生成XML文档

  完成标注,且通过架构验证的文档可选择“文件”菜单上的“另存为”命令,保存为“qingrenxiaoxuezhushu.xml”文档。为保证其他XML的软件也能阅读并处理我们保存为XML格式的文档数据,我们选择“仅保存数据”备选项。如图4:

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  图4:生成xml文档

  五、清人小学注疏五种的属性提取方法

  (一)XML与XSL的整合

  XML文档中事先标注过的元素和信息,都可利用XML的可扩展样式表技术加以提取。现欲提取“qingrenxiaoxuezhushu.xml”文档中的“字词关系断语”和“同源字”两元素,可编写“tongyuanzi.xsl”文档,其源代码如下:

  

  

  

  

  

  清人小学注疏同源字研究资料

  

  

  清人小学注疏同源字研究资料

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  )

  

  

  

  

  

  

  

  

  

  已标注的“qingrenxiaoxuezhushu.xml”在链接上述“tongyuanzi.xsl”文档后,经IE浏览器解析,可直接转换成我们需要的词源研究资料,包括我们教学中常用的各种同族词、古今字、通假字、异体字等方面的宝贵材料。其转换结果如图5:

  

  

  

  

  

  

  

  

  

  

  

  

  

  图5:样式表转换结果

  (二)HTML对XML的整合

  超级文本标记语言(即HTML)是一种超文本链接标记语言,依据该标准创建的HTML文件具有极强的描述和链接下级文本的功能。

  为此,我们创建了“清人小学注疏五种词源研究语料库.html”文件。该文件可以顺利地整合我们标注好的五种清人小学注疏的XML文档,并为浏览整个语料库提供一个初始界面,该语料库初始界面如图6:

  

  

  

  

  

  

  

  

  

  

  

  图6:清人小学注疏五种词源研究语料库

  六、结语

  长期以来,在古汉语研究领域,人们最常用的计算机功能仅仅是能提高阅读速度的全文检索,但这无助于增进对古籍文本的理解。关系数据库技术出现后,人们又将古籍文本的内容分析为字段和记录的形式以存储,从而为人们获得较系统的语言学知识开辟了新的途径。但是关系数据库往往会肢解原古籍文档内容的整体性,从而降低语言学典籍的可读性。

  XML有效避免了这些缺陷,它奉行数据存储与数据显示相分离的原则[5],人们可借助自定义标签,从XML文档中无限次地提取自己需要的语言学知识,且能在显示上与源数据相独立。清人小学注疏五种词源研究语料库的建设,是应用XML技术标注处理古籍文档的一次大胆尝试,将为应用XML技术处理古籍文本提供宝贵借鉴。

  

   (本文系教育部人文社会科学研究青年基金项目“清人小学注疏五种词源研究语料库建设及研究”的阶段性成果,项目编号为[11YJC740028])

  

本文链接:http://www.qk112.com/lwfw/jiaoyulunwen/qtjy/181894.html

论文中心更多

发表指导
期刊知识
职称指导
论文百科
写作指导
论文指导
论文格式 论文题目 论文开题 参考文献 论文致谢 论文前言
教育论文
美术教育 小学教育 学前教育 高等教育 职业教育 体育教育 英语教育 数学教育 初等教育 音乐教育 幼儿园教育 中教教育 教育理论 教育管理 中等教育 教育教学 成人教育 艺术教育 影视教育 特殊教育 心理学教育 师范教育 语文教育 研究生论文 化学教育 图书馆论文 文教资料 其他教育
医学论文
医学护理 医学检验 药学论文 畜牧兽医 中医学 临床医学 外科学 内科学 生物制药 基础医学 预防卫生 肿瘤论文 儿科学论文 妇产科 遗传学 其他医学
经济论文
国际贸易 市场营销 财政金融 农业经济 工业经济 财务审计 产业经济 交通运输 房地产经济 微观经济学 政治经济学 宏观经济学 西方经济学 其他经济 发展战略论文 国际经济 行业经济 证券投资论文 保险经济论文
法学论文
民法 国际法 刑法 行政法 经济法 宪法 司法制度 法学理论 其他法学
计算机论文
计算机网络 软件技术 计算机应用 信息安全 信息管理 智能科技 应用电子技术 通讯论文
会计论文
预算会计 财务会计 成本会计 会计电算化 管理会计 国际会计 会计理论 会计控制 审计会计
文学论文
中国哲学 艺术理论 心理学 伦理学 新闻 美学 逻辑学 音乐舞蹈 喜剧表演 广告学 电视电影 哲学理论 世界哲学 文史论文 美术论文
管理论文
行政管理论文 工商管理论文 市场营销论文 企业管理论文 成本管理论文 人力资源论文 项目管理论文 旅游管理论文 电子商务管理论文 公共管理论文 质量管理论文 物流管理论文 经济管理论文 财务管理论文 管理学论文 秘书文秘 档案管理
社科论文
三农问题 环境保护 伦理道德 城镇建设 人口生育 资本主义 科技论文 社会论文 工程论文 环境科学