日期:2023-01-12 阅读量:0次 所属栏目:电视电影
文献标志码:A
Abstract: To tackle the higher requirement of mobile network for movie service system and the lack of description of movie domain knowledge, the necessity and feasibility of establishing the Movie Ontology (MO) were illustrated. Firstly, the objects and components of MO were summarized, and the principle and method for building the MO model were also put forward, with using the Web Ontology Language (OWL) and Protege 4.1 to build the model. After that, the concrete representation of the class, property, individual, axioms and inference rules in the MO were explained. Finally, the consistency of MO was analyzed, including the consistency analysis of relationship between classes and the consistency analysis based on axioms.
Key words: Movie Ontology (MO); Web Ontology Language (OWL); inference rule; consistency analysis
0引言
科学技术的发展让人类由信息化时代逐步迈入知识化时代,因此计算机应用领域迫切需要学科专业知识的支撑。作为一门社会学科,电影在影视检索系统和影视教学系统等方面具有重要的作用。近年来网络中电影信息海量出现,产生的资源无结构化、非标准化问题日益严重。利用传统组织文本和图片的方式管理电影资源,已经无法满足信息系统的要求和网民消费的需求。
本体(Ontology)[1]是近些年人工智能领域快速发展的一项技术,它在知识获取、分析、表示和处理等方面具有优势。本体研究的主要目标是实现某种程度的知识共享和重用。本体能够辅助用户实现这一目标的原因包括:首先,本体分析澄清领域知识的结构,识别相关领域概念的本质,为知识共享打好基础;其次,本体对领域知识的分析结果可以重用,避免重复分析;最后,本体采用语义明确、定义统一的术语和概念,使知识共享成为可能。目前本体在知识工程、自然语言处理和基于知识的信息系统等方面得到广泛的应用[2];因此构建电影本体,利用本体思想处理电影领域的知识,是一项具有重要意义的工作。
领域本体的研究主要集中在医学、地理、农业和生物等领域[3],在电影领域本体的建立和电影知识获取方面,国内外的工作相对较少。具有代表性的电影领域本体是W3C利用OWL(Web Ontology Language)[4]开发的MO(Movie Ontology)[5]。但是MO存在两方面的缺陷:1)MO中缺乏能够反映电影本质信息的知识,比如电影的主题、场景和票房等;2)MO为英文版本的电影本体,不利于描述国内电影知识。针对以上不足,本文提出一种“三阶段”电影本体构建方法,建立一个涵盖电影本质知识、可共享的中文版本电影本体,并对电影本体模型进行一致性分析。
1电影本体
1.1电影对象
首先确定电影本体的内容和范围。电影与传统的文本、音乐和图片等信息媒介相比,囊括的信息更丰富,它是一门容纳文学、摄影、绘画、音乐和科技等多种门类,同时又具有独特性的综合艺术。因此,电影对象的划分会根据分类标准的不同而不同。电影作品是电影领域最基本的对象,其他电影对象都围绕电影作品进行刻画和描述。
综合各种电影对象的分类方法,电影对象可分为人、地域、时间、影视公司、民族、电台频道、语言、视频格式、画面色彩、画面质量、语言风格、主题、事件、制作技术、场景、电影奖项、电影节、类型、题材、角色、电影分类方法共21个方面。为方便用户理解和检索,电影本体中增加rdfs:label和rdfs:comment对知识进行形式化表示。电影本体包含与电影对象相对应的21个子本体。这21个子本体均自成体系,同时又存在关联性。这些子本体有机地组合在一起,形成完整的电影本体。
1.2电影本体的组成
电影本体的知识结构包括类(Class)、属性(Property)、实例(Individual)、公理(Axioms)和推理规则(Rules)5部分。该结构通过“类属性实例”的三元组将电影和它的外延知识进行关联,利用公理和推理规则对知识进行约束,完成电影知识网络的架构。
1)类是具有相似性质的所有个体的抽象。本体类的缺省父类为owl:Thing,电影本体中设置电影以及与电影相关联的同级类共21个,每个类包含相应的子类。特别地,本文将“电影分类方法”作为电影本体的一个类。这样的设置不仅更好地体现本体的继承关系(Isa)和整体部分(IsPartOf)关系,而且对电影的分类体系结构起到优化作用。 2)属性是对类概念的刻画和描述,包括对象属性(Object Property)和数据属性(Datatype Property)两种。对象属性约束两个类的实例之间的关系,定义域为类,值域为某个类的实例。数据类型属性约束类的实例与RDF文字或XML Schema数据类型间的关系,定义域为某个类的实例,值域为any、Boolean、string、float等。
3)实例即个体,是本体类所包含的基本元素,也是本体中最基本的对象。构建本体时需要根据本体的描述粒度来决定哪些对象可以作为类的实例。
4)本体的公理表示一些永真式,是OWL类公理的核心部分,用来描述类概念之间存在的各种约束条件。
5)推理规则是通过形式化地描述领域专家知识而形成的系统规则。这些规则表示该领域的一些问题以及与这些问题相应的答案,可以利用它们来模仿专家在求解中的关联推理能力。
1.3电影本体的构建原则
本体的构建原则对本体建模具有指导意义。本文根据电影本体的特点和作用,制定出电影本体的构建原则,包括以下几方面:
1)尽最大可能使用标准术语。
2)定义清晰。对电影本体中标准术语的含义给出准确的定义和详细的说明。
3)保持一致。本体的前后保持一致,即支持与本体定义相一致的推理。
4)可扩展性。电影本体提供一个可共享的词汇表,为预期的任务提供概念基础。
5)编码偏好程度最小。电影本体位于知识的表达层次,与特定的符号级编码无关。
6)同层次概念保持最小的语义距离。
7)本体约定最小。只要能够满足当前特定的知识共享需求即可。
1.4电影本体的构建方法
根据电影本体的组织结构和构建原则,本文提出一种电影本体构建方法。该方法包括3个阶段:电影知识收集与分析、电影本体的模型构建和电影本体的一致性分析。与文献[6]、TOVE[7]和七步法[8]等本体构建方法相比,该方法具有两点优势:
1)增加知识的需求分析。参考《中国国家图书馆分类法》(第4版)[9]中关于电影艺术的概念描述、《辞海》[10]、百度百科、维基百科、《中国大百科全书:电影》(第2版)[11]、电影类书籍、豆瓣电影[12]和IMDb[13]等主流电影网站等权威信息媒介,保证电影本体中知识的标准化和精确性;
2)模型构建阶段明确给出电影本体的词汇表,合理复用已有的本体,最终形成电影本体的文档结构,保证电影本体的可扩展性和易维护性。
本文以OWL DL作为本体描述语言,Protege 4.1[14]作为本体编辑工具[15]。电影本体构建方法3个阶段的具体步骤如下。
第1阶段电影对象的收集与分析。该阶段包括电影知识的获取、分析和文档化,对电影对象进行初始化的管理和保存。
第2阶段电影本体的模型构建。该阶段主要包括以下几步:
1)电影本体内容和范围的合理界定。电影与音乐和文学等学科之间存在密切联系,很难确定所表示的知识是否被完全覆盖。电影本体完全涵盖电影作品的基本内容,并增加电影节、电影改编、场景等电影的外延知识,形成一个电影作品库。
2)刻画电影本体的领域词汇表。领域词汇表标识并收集所有有用和潜在有用的领域概念及语义、属性和实例等。构建本体之前,本体建立者应当写入词汇表的各个项:词条名称、类型、语义描述、词汇所属类别(类/属性/实例)等。电影本体的词汇表包含类词汇表、属性词汇表等。
3)确定电影本体的类和实例。一要确定电影的对象哪些可以作为类;二要根据本体的描述粒度决定对象作为类还是实例,同时确定本体类的实例集和每个实例所属的类。
4)划分电影本体的类间结构和关系。电影对象的分类结构对本体建立起奠基作用。具体的表示方法主要有自顶向下、自底向上和综合法3种。电影本体的构建采用综合法,形成以“电影”为父类的多级树状结构。电影本体的分类结构如图1所示。
5)考察和复用已有本体。本体复用是本体知识共享、与相关领域知识增加应用可行性的重要步骤。本体复用需要结合系统自身的需求,适当地借鉴和使用。电影本体中复用“人、地域、时间、民族、语言”等公共信息本体。
6)描述电影本体类的属性。根据最实用、最符合观众心理欣赏特点的原则,电影本体设置25个对象属性和9个数据属性,从不同的侧面对电影本体的类进行刻画。
7)描述电影本体的约束公理和推理规则。深入分析电影本体的对象,明确对象之间的关联约束,利用OWL描述公理和规则,为电影本体的一致性分析作铺垫。
8)添加标签和注释。为本体的概念增加rdfs:label和rdfs:comment,便于计算机处理,同时方便用户理解概念和使用本体,进一步完善电影本体。
9)形成电影本体文档。领域本体的建立是不断修改和扩展的过程,文档化有利于本体的编辑和维护,通过不断的改进使本体逐渐接近人类对客观世界的认知。
第3阶段电影本体的一致性分析。主要包括类间关系的一致性分析和基于公理的一致性分析,具体参见本文第3章。
2电影本体的详细描述
2.1类
本体的类有两方面作用:1)描述类本身的含义和类所包含的知识;2)对类的子类和实例作出限定。电影本体的类词汇包括:电影、类型、题材、主题、时间、语言、地域、人、角色、场景、事件、情节等。其中“人”划分为“职员”“演员”,“职员”包括“导演”“编剧”等,“演员”包括“电影演员”“配音演员”等。电影本体的类词汇表如表1所示。
2.2属性
属性描述本体中类或实例的一个侧面。子类和父类的属性之间存在继承和发展关系。电影本体的属性包括上映时间、主题、事件、场景、拍摄地区等25个对象属性,剧情介绍、电影票房、电影经费、电影评分等9个数据类型属性。电影本体的属性词汇表标明各个属性的类型、定义域、值域和语义描述,具体描述如表2所示。 电影本体中关于电影的主题、角色和剧情介绍等信息源依据豆瓣电影,电影评分的数值来源依据IMDb中文网。豆瓣电影提供每一部电影的IMDb链接,二者之间的关联性保证电影本体中描述的每一部电影信息都具有一致性和准确性。
本体中另一个描述概念之间联系的重要方面是关系。它通常表现为动词,表示一个命题或断言,描述类、实例之间的各种联系。关系将一个概念与其他概念或实例联系起来,起到知识连通的作用。电影本体的类关系如表3所示。
3.2基于公理的一致性分析
基于电影公理的一致性分析是指电影知识和电影公理之间不存在矛盾。由于电影知识来源的多样性和人工整理知识的疏漏,本体工程师所获取的知识和概念不一定完全正确,这些原因都可能造成本体的不一致。基于表6和表7列出的电影公理和规则,给出以下分析。
例1:
规则4[(?电影 mo:拍摄时间 ?时间),(?电影 mo:上映时间 ?时间)(电影.拍摄时间 早于 电影.上映时间)]。
该规则说明对于任意一部电影,它的拍摄时间一定早于上映时间。如果电影本体中出现拍摄时间大于上映时间,则报告本体出现不一致。依据此类规则可以推断电影本体知识的一致性与否。
需要说明的是,本体的一致性分析涉及本体的类、属性和实例等各个方面,是一项非常复杂的工作。本体工程师需要随着知识的更新,逐步找出有效的分析方法,循序渐进地完善本体。本文主要针对电影领域本体的初始工作,在完成电影本体局部分析的基础上,进一步分析整个电影本体的一致性。
4结语
本文结合当前电影领域的形势,对电影领域知识本体建立的必要性和可行性进行说明,提出一种“三阶段”电影领域本体构建方法,并阐述电影本体构建的步骤。该方法涵盖本体构建和维护的整个生命周期,相比于其他本体构建方法具有明显优势。本文所建立的电影本体模型,在国内具有超前性和实用性,对于下一代互联网业务的扩展具有重要意义。随着知识的发展和演变,本体模型的建设和完善工作将继续进行。
本文链接:http://www.qk112.com/lwfw/wenxuelunwen/dianshidianying/164045.html下一篇:两岸三地英文电影译名的比较