日期:2022-12-01 阅读量:0次 所属栏目:新闻
随着计算机通信技术和数字媒体技术的迅速发展,新闻视频的来源日益广泛、获取更加便捷、数量迅速膨胀,每时每刻都有大量来自不同国家、不同语种、不同电台以及不同新闻网站的新闻视频出现。新闻资源的极大丰富使得人们在搜索自己感兴趣的事件时,得到的结果却往往充斥着大量的冗余和重复信息,很难迅速了解整个事件的来龙去脉和相关信息,更难以发现新闻事件之间隐含的关联情报。以事件专题的形式对新闻故事进行分析、组织和管理是解决这个问题的有效途径,如:当检索“韩国天安号”事件时,如果能够自动地对报道该事件的新闻故事进行分析组织,提供一个关于事件发展脉络的专题结构展示,而不是仅仅显示一个相关的视频列表让用户自己找出它们之间的关系,这种方式对于用户来说是非常有用且极具吸引力的。
故事是新闻视频中对一个新闻事件的完整报道,提供了描述该事件的完整语义信息。基于故事层次对新闻事件进行分析、组织和管理,能够更好地贴近用户的实际需求。因此本文提出一种基于故事的新闻视频事件专题分析方法,其基本思路是通过聚类将报道同一新闻事件的所有故事聚集在一起,分析事件内部故事之间的相似性及相互依赖关系,根据依赖关系构建新闻事件的专题结构,并采用“事件-时间”的专题结构树对事件专题进行表现。
1.相关研究
当前对于新闻事件分析和组织的研究主要集中于主题检测与跟踪(TopicDetectionandTracking,TDT)技术。TDT是一项旨在依据事件对语言和文本信息流进行组织、利用的研究,也是为应对信息过载问题而提出的一项应用研究。
NaUapatiR等结合TDT研究,对文本媒体提出了故事、事件线索化等定义,通过事件模型获取事件丰富的结构信息和它们在主题中的依存关系。该研究提出了故事之间的依存关系对于用户完整地了解事件具有重要意义,事件结构建模的方式对于获得故事的语义要比平面列表更加有效。文献利用TDT研究的成果,对新闻视频的播报文本进行分析,实现主题探测与跟踪等,并将主题结构通过按时间排序的定向层次树来构建。
日本国立情报研究所针对新闻视频的主题探测与跟踪、线索化组织等开展了一系列研究,并通过这种结构化的结构来辅助用户的浏览和交互等。这些研究在完成话题探测与跟踪分析后,获得所有故事单元之间的相似性和相互的依存关系,构建每个故事单元相似关系的层次树,并对树中的可能重复的子树进行删减、合并等一系列操作进行简化。然而,这些研究初始的层次树结构复杂,简化过程中对子树的各种操作处理也比较复杂。
文军等提出一种基于故事单元的多线程管理技术,通过比较事件内部故事之间的相似关系建立事件的有向图结构。但该事件结构仅能表现故事之间的相似程度及时间先后顺序,体现不出事件的发展趋势,并且冗余和重复的故事也包含在事件结构中。
2.新闻视频故事聚类
本文以事件专题的形式对新闻故事进行分析,其首要步骤就是故事聚类’将报道同一事件的新闻故事聚集在一起。对于新闻故事聚类来说,大多数巳有的聚类方法都是基于文本特征进行的。然而,新闻视频提供了丰富的视觉信息,而视觉信息对于新闻故事语义内容的描述具有重要作用,因此本文综合考虑文本和视觉特征来对新闻故事进行聚类。文本特征取自对新闻故事经语音识别所得到的文本。视觉特征采用新闻故事的关键帧来表示,对故事所包含的镜头每个取一个代表帧来组成故事的关键帧(关键帧提取中忽略播音员镜头)。
对于多源新闻视频来说,报道相同事件的新闻故事之间会出现一定的相似关键帧(near-duplicatekeyframe,简称NDK),即一幅图像与另—幅图像在表现内容和场景上相同或相似,只是在图像的获得时间、条件和编辑操作上有所差异。图1给出了两个新闻故事中的相似关键帧示例,可以看出具有NDK;对的故事在很大程度上是对同一事件的报道,因此,相似关键帧的识别对于新闻视频故事单元聚类具有重要意义。当前对于相似关键帧的识别已经提出了许多方法,本文采用文献所述的方法对故事间的相似关键帧进行识别。
将新闻故事中所包含的词和关键帧聚类看作概念。整个新闻故事集表示为一个概念-故事矩阵1行对应概念,列对应新闻故事,矩阵A表示为:
其中,A1是一个词-故事矩阵,行对应词,列对应新闻故事。新闻故事和所包含词之间的联系采用传统的进行计算。A2为关键帧-故事矩阵,行对应关键帧聚类,列对应新闻故事。对于关键帧聚类,用MDK对代替传统所用的颜色直方图,基本上同样的NDK形成_个聚类,认为是一个视觉概念,而无NDK的关键帧每个形成一个聚类,通过计算故事-关键帧的联系构建矩阵A2:
其中,为故事中出现关键帧聚类i的次数,况为新闻故事的数目,为出现关键帧聚类;的故事数目。由于本文研究的重点在于新闻事件专题的结构分析上,因此,对于新闻故事聚类简单采用传统的k-均值聚类算法,简要步骤如下:
(1) 建立词-故事矩阵岑和关键帧-故事矩阵皂,构建概念-故事矩阵4;
(2) 计算正规化矩阵,其中D1和D2为对角矩阵;
(3)对人进行奇异值分解,得到降维后的矩阵
(4) 在矩阵Z上执行k-均值聚类算法,得到所需的K个聚类。
3.新闻事件专题结构分析
完成故事聚类后,报道同一事件的新闻故事形成一个聚类,但聚类内部的故事是杂乱无章的。要将这些故事组织成有序的线索化的专题形式,需要对故事之间的相互依赖关系进行分析。
3.1 故事相似性度量
新闻故事中,表示不同内容的特征的重要程度是不一样的。通常,报道同一个事件的两个新闻故事在视频中一般会出现相同类型的镜头,这些内容的特征相对比较重要,而其它描述词汇由于数量较大、描述事件的方法和报道的角度不同等原因用词也会不同,其重要程度相对较低。因此,分别处理一个故事单元中的不同特征,更能准确地表示故事单元的语义内容。
将故事之间的相似度分为视觉相似度(Sim?)和文本相似度(Sim,)两部分,并根据特征的重要程度赋以一定的权重系数,那么两个故事之间的相似度定义如下:
其中,m为事件所包含的词的数目,%($)和wt(S;)分别为词在故事Sf和&中的权重。词tok在故事S,中的权重计算如下:
其中,是词A在故事民中出现的次数,Mm(民)是故事S(所包含的词汇个数,atm是事件所包含故事的平均词汇个数,W是事件中总的故事个数A是包含词%的故事个数。
对于视觉相似度,将关键帧看做视觉概念,故事间的相似关键帧看作为同一视觉概念。采用余弦距离计算两个故事之间的视觉相似度:
其中,m为故事S1和Sy+的视觉概念总数,TIK和tj,t分别为两个故事中视觉概念W的权重。
与关键词不同,两个故事间所存在的NDK数量很有限,用传统的斤蝴计算视觉概念的权重是不合适的,采用文献[12]中的方法对故事中视觉概念%的权重计算如下:
式中,为视觉概念%在该故事中的出现次数,m为该故事中视觉概念的数目,为事件中出现视觉概念%的故事数目。
在聚类内部对故事之间的相似性进行度量,以故事的发生时间先后为顺序,计算一个故事与其之前发生的新闻故事之间的相似度,取相似度最大的值作为该故事的相似性度量,定义如下:
根据相似性度量建立两个4k事间的依赖关系<(Sf,Sj),R(St,Sj)>,前项是故事之间的依赖关系对,后项为计算所得的故事间相似度值。这是一个两两度量,决定了故事在新闻事件专题中的冗余程度。
3.2 新闻视频事件专题结构生成
一个事件中的新闻故事之间存在大量冗余,特别是来自不同频道的新闻报道。一般来说,用户的主要兴趣在于快速了解事件,而不是浏览整个事件所包含的所有新闻故事。因而,评价故事内容的冗余程度是必要的,故事冗余的标识能够减少生成事件专题的开销,同时冗余的程度对于事件的发展过程提供了指示信息。
不同用户对于故事的冗余有不同的定义和不同的阈值选取,为了消除这种不一致性,与文献类似,将新闻故事划分为三类:冗余故事、演化故事和新故事。如果一个故事基本不包含或包含很少新的信息,则认为是冗余故事,也就是说该故事是一个回顾或先前故事的重复;具有一些新的信息并且包含一些冗余内容的故事标记为演化故事,演化故事通常传递了事件的渐进发展信息;
大多数内容都是新的新闻故事标记为新故事,表明事件发展的新方向,也可看作是事件所包含的子事件。
故事之间的依赖关系能够表明故事的发展和冗余关系。对于纤关系<(S,-,S)>,表示故事3在\前发生,同时S;依赖于,而被S;所依赖,《(S,S1)表示故事之间的相似度,也表明了故事Sy的冗余程度。
得到事件内新闻故事之间的相互依赖关系后,采用树的方式来构建新闻事件的专题结构,其中节点对应故事,边对应故事之间的相似度。设置故事的相似度阈值TN和匕,分别表示新故事和冗余故事的阈值,则新闻视频事件专题结构的构建过程如下:
(1) 将事件中的新闻故事按发生时间进行排序,选择时间最早的新闻故事作为树结构的根节点;
(2) 计算当前故事的相似性度量,在已处理的新闻故事中找出与当前故事具有最大相似度值的故事Sf,并设置相应的故事依赖关系<(S,.,Sj)’Sy)>;
(3)根据依赖关系,若R(s,SJ)&rA,表明当前故事为冗余故事,直接放弃该故事;若似,Sj,表明当前故事为新故事,将其依赖关系设置为依赖于事件,即(E,S1),直接连接到树结构的横向节点;若sf) (1) 重复步骡(2)~(3),直到事件中的所有故事都加人到专题树结构中。 为了能够直观地表现事件专题结构,上述构建树结构的过程采用横向节点连接和纵向节点连接的方式,同时边的箭头方向表示故事之间的时间先后关系,边的权值表明故事之间的相似度。通过所生成的事件专题结构,用户能够很容易了解新闻事件的各方面内容,同时可以很淸楚地看到事件的发展趋势及相关信息。专题结构中,横向连接的故事节点代表了新闻事件的新的发展方向和趋势,也可以看作事件所包含的子事件;而纵向连接的故事节点是其父节点故事的进一步发展,是对父节点事件内容的补充。以“韩国天安号事件”示例,初始聚类后得到43个相关的故事单元,对事件进行专题化分析处理后,构建出的事件专题结构如图2所示。 上面生成的专题结构中,边的箭头方向能够表示故事发生的时间先后顺序,但对于横向节点的子节点之间的时间关系则无法体现。为了直观地展示事件随时间发展的情况,将事件专题结构放置进“事件-时间”的坐标系中并加以一定的演化处理,以故事的发生时间顺序为基础,保留事件专题结构中故事之间的依赖关系,对图2生成的专题结构树进行演化处理,如图3所示。采用“事件-时间”的组织方式可以很清楚看出新闻事件随时间一步步发展关系,横向框中的故事为同一时间点所发生的故事,而纵向框中的故事则是事件中某一子事件及其随时间发展所演化之故事。从根节点出发,沿横线或折线连接的新闻故事构成了整个新闻事件的发展脉络。 4.实验 为了验证本文所提新闻事件专题分析方法的有效性,采集多种来源的新闻视频,包括CNN、CCTV1、CCTV4和凤凰卫视的新闻节目,对几个备受关注的新闻事件进行实验验证。数据中部分新闻视频(天安号事件)来自于网络的优酷网站,分辨率为240x192;其他来自于自己采集的新闻视频,分辨率为352x288,视频编码格式均为MPEG-1C 实验采用基于人工参与的形式进行,将事件中所包含的新闻故事按时间进行排序,选择3名未经任何训练的硕士研究生一起对新闻故事进行主观评判,要求他们按顺序浏览新闻故事并进行标记,将新闻故事标记为新故事、冗余故事或者发展故事,同时标识故事间的依赖关系(新故事作为事件所包含的子事件直接设置为依赖于事件),以此作为新闻视频数据的“标准结果”。 建立新闻事件专题的主要目的在于给用户提供一个全面、简洁及有序的事件结构,以便于用户迅速浏览并掌握事件的主要信息。因此,首先从事件专题的信息覆盖率(1C)和结构冗余度(SR)两方面事件专题结构进行评估。令“标准结果”中去除冗余故事后的故事集合为实际故事,“标准结果”中的冗余故事集合为实际冗余,则1C和SR的定义如下: 另外,对于专题结构的有序性评估上,通过比较生成结构中的依赖关系和“标准结果”中的依赖关系来检验专题结构的性能,生成专题结构更好的算法会得到更接近“标准结果”的故事依赖关系。定义依赖关系匹配度(DM)来评估所生成的事件专题结构的性能: 其中,D(T)为专题结构所生成的依赖关系对,D'(T)为用户标注出的实际依赖关系对,i表示事件中故事关系对的数目,即故事数-1。DM的取值范围从0到1,DM的值越高,说明所生成专题结构的性能越好。需要说明的是,我们在生成事件专题结构时,直接放弃了冗余故事,但对冗余故事所建立的依赖关系依然存在,计算DM时,主要为了考察故事间依赖关系的正确性,因此,将冗余关系也考虑在内。算法中主要参数的阈值选取为a=0.4,TR=0.7,TN=0.3. 表i显示了新闻事件专题结构性能评估的实验结果(#表示事件所包含的故事数目),从实验结果可以看出,所生成专题结构的平均信息覆盖率达到了0.967,同时冗余度相对较小,只有0.09,DM值也得到了较高的结果。事件之间相比,事件4的冗余度相对较高,因为该事件主要包括3个子事件“事件发生一送葬一钱学森生平回顾”,“回顾”子事件中,由于不同电台在报道上的差异,并且有些电台将回顾穿插在事件发生和送葬子事件中,使得一些故事的相似度计算相对较小,被认为是发展故事,而用户在判断上,将大多回顾直接判定为冗余故事,导致了事件专题的冗余度偏大。对于线索比较清晰的重大事件,3个评价指标都得到较好的结果。 考虑到不同用户对于新闻故事之间的相似性、组织形式等有不同的认识和需求,具有较强的主观性,采用主观评价的方式对所生成的事件专题结构进行评估。让3名硕士研究生对生成的事件专题结构的满意程度进行打分,以百分制进行评估,分数越高表明用户越满意。实验结果如表2所示。 从表2中可以看出,用户对于所生成的专题结构普遍还是比较满意的,同时。用户的满意程度与表1中的DM指标也基本吻合,这也反映了DM作为客观评价指标的有效性。 5.总结 本文提出一个基于故事的新闻视频事件专题分析方法,首先融合视觉和文本特征将报道同一事件的新闻故事聚类在一起,然后计算事件所包含故事之间的相似性,建立故事之间的相互依赖关系,根据依赖关系生成基于树的新闻事件专题结构,并将专题结构置于事件_时间坐标系中以更直观地反映事件的发展脉络。实验证明所生成的事件专题结构简洁有效,能够很好地表现事件的发展关系。 下一步的研究工作主要包括以下两个方面:首先,如何寻求更加有效的故事之间相似性度量方法,这包括有效的特征选择和计算算法等;其次,新闻事件内部的故事之间还存在多种关联关系,依赖关系仅选择了与当前故事最相似的新闻故事,不足以反映故事之间的复杂联系(如地点、人物等新闻要素的关系),如何表现故事之间的复杂关联关系及生成相应的直观专题结构也是需要进一步研究的主要方面。 刘海涛,老松杨,白亮,刘振亚 (国防科技大学信息系统工程重点实验室,湖南长沙410073)
上一篇:网络媒体的新闻来源及传播
下一篇:词性对新闻网络话题检测的影响