日期:2023-01-24 阅读量:0次 所属栏目:计算机应用
摘 要:网络故障管理技术是通信系统中网络管理的核心,是维持网络高效运行的关键因素,而故障定位检测作为网络故障管理的关键功能之一,其技术、算法实现的好坏将决定整个网络自动化的成败。本文即针对目前网络系统中由于不同程度的告警丢失和虚假告警的情况,造成故障检测精确度降低、无法快速诊断的问题,提出了相应的解决方案。
关键词:网络故障管理;故障定位;分层诊断;TNSFLA
正文:本文针对网络故障发生时产生不同程度的告警丢失和虚假告警的情况,造成故障检测精确度降低、无法快速诊断的问题,提出了一种基于三层节点架构的故障定位算法(TNSFLA,Three-layer Node Structure-based Fault Location Algorithm),该算法利用网络系统接收到的告警信息来建立故障队列集合,通过对队列中故障节点发生概率的检测,从中选择最可能产生告警的故障作为最优解。
1、TNS架构包括:
(1)故障节点集合Λ;(2)告警节点集合Μ;(3)症状节点集合S={ s_node1, s_node2 ,, s_nodem },其中s_nodei表示症状节点i,(4)故障集合与症状集合之间的相关矩阵Dm,n。为了方便算法的描述,本文对上述TNS架构做出两点假设,一是故障节点集合Λ中的各个节点之间相互独立;二是故障节点和症状节点之间因果强度不变,即矩阵Dm,n中元素的大小不发生改变。为此,可以得出故障定位在本架构中的数学表示式,即在故障节点集Λ中获取一个故障诊断队列,使得该队列在告警发生时的概率p(β Μ)最大,也即该故障队列的置信度最高。
2、算法TNSFLA的设计和实现:
算法TNSFLA的故障定位过程分为两个阶段,故障诊断队列创建阶段和诊断队列元素选择阶段。其中,第一个阶段创建能够解释网络系统接收到的告警节点集对应的症状集合的故障子集;第二个阶段对阶段一中创建的故障诊断队列的各个元素,计算各个故障发生的置信度,从中选出置信度最大的故障诊断元素作为最终的结果。
2.1 其中诊断队列最优解的具体选取过程:(1) 首先来计算队列中各个子集元素的置信度,比较这些置信度的大小,并选择发生概率最大的一个作为最终结果。(2) 若其中有两个以上的元素置信度相同,则继续对这些子集元素内包含的故障节点和虚假故障节点进行比较,首先比较故障节点的个数,选取故障节点个数最少的那个子集作为最终解。(3) 若仍然有两个以上子集故障节点个数相同,则比较他们内部虚假故障节点的个数,选择虚假故障节点最少的那个子集作为最终解。
2.2 算法TNSFLA的执行过程示例:假设系统依次接收到了告警集合Μ = {e_node1, e_node2, e_node4, e_node5, e_node6},设max_true_fault = 3,max_false_fault = 2.算法的处理过程如下:
(1)初始化故障集合队列β=Φ,根据网络故障系统接收到的告警节点集Μ得到对应的症状节点集S ={s_node1, s_node2, s_node4, s_node5 , s_node6};
(2)求得症状节点s_node1,对应的故障子集F1 = { f_node1, f_node2, if_node1},创建β1={{ f_node1},{ f_node2},{ if_node1}};
(3)求得症状节点s_node2,对应的故障子集F2 = { f_node2, f_node3, if_node2},由于β1中故障节点元素{f_node2}可以解释症状节点s_node2,所以将{ f_node2}直接加入到队列集合β2中,然后遍历集合β1-β2中的其它元素,根据算法TNSFLA的3点启发性判断能否将故障加入。
(4)依次处理症状s_node4, s_node6,;处理完所有事件后,得到能够解释系统告警即{e_node1, e_node2, e_node4, e_node5, e_node6}的故障子集为{{ f_node2, f_node4},{ if_node1, f_node3, f_node4,}, { f_node1, f_node2, if_node6}, {f_node2, if_node4, if_node6},{ f_node1, f_node3, if_node6}}。最后根据最优解选取的方法,分别求取这些故障诊断子集的置信度,获取最终的故障原因。
3、仿真结果与分析:
将仿真场景中网络节点的数目设置为1~100个,通过不同数目节点的设置构建不同的网络实验场景。同时对穷举法(ES,Exhaustive Search)、基于拉格朗日松弛法的故障定位算法(LRA,Lagrangian Relaxation Algorithm)进行了实现,将其作为本文算法的对比方案。仿真结果表明,当网络系统中存在告警丢失和虚假故障的情况下,该算法在故障检测率、误检率以及定位时间方面体现出极大的优越性。
参考文献:
[1]潘朝阳, 曾劲柏, 黎连业等. 计算机网络故障诊断与排除. 北京: 清华大学出版社, 2007
[2]张新. 分层分布式网络故障管理研究: [博士学位论文]. 西安: 西安电子科技大学,2007 本文链接:http://www.qk112.com/lwfw/jsjlw/jisuanjiyingyong/242675.html