日期:2023-01-24 阅读量:0次 所属栏目:计算机网络
摘 要:由于业务系统停止服务,且非网络问题,进而检查发现是网卡驱动中的漏洞导致节能模式工作异常,经过笔者细心检查,最终长效解决此问题。
关键词:网卡;服务器;驱动
引言:突然接到电话,说业务系统停了,赶到现场,发现ping服务器是通的,但是业务系统就是连接不上,直接连数据库,也不能连接上,直接怀疑是存储出现问题。
因工作需要,笔者单位配置了一台MD3000存储,有4台DELL R710服务器的数据库文件存放在存储上,其中2台服务器是做双机互备,2台服务器的数据库存放在存储上。这次停止工作的是双机互备的服务器上的业务系统。从理论上讲,双机不可能同时损坏,双机热备应该是一台有故障应该另一台自动接管的,这是怎么回事呢?
一、故障分析
跑进机房,发现服务器和存储的指示灯都正常,说明服务器和存储都没有硬件损坏。打开故障服务器,服务器的存储器都正常,业务服务也正常。打开双机软件PLUSWELL,发现两机心跳线中有一根是红色的。于是首先检查线路,发现问题服务器有一根网线灯是红色,于是换了一根网线。网线灯变绿了后,重新启动服务器,PLUSWELL连接线已经变绿,但是客户端反映问题依然存在。检查PLUSWELL设置,发现双机软件设置正常,存储设置正确。依次关闭所有服务器和存储设备,然后再打开,发现系统服务恢复正常。为预防这个错误再次发生,于是对系统进行彻底检查,在检查系统日志时,发现一个l2nd的警告经常出现,其中一台服务器上出现这个问题的一个时间点出现非常怪异,如图一所示:
图一:网卡down掉
8点28分,网卡当掉?我们8点上班,即业务数据将在8点5分过后进入交流高峰,8点28分网卡为何当掉呢?那个时候网线已经被我换掉,应该说网络是通畅的。查看以前的日志信息,发现类似问题经常出现,但是没有出现这样的情况,于是查看网卡设置,发现网卡设置了节能模式,如图二。
图二:网卡电源管理
这个节能模式从理论上讲是无数据交换的时候就,就关闭网卡,以节约能源,当有数据交换的时候,就呼醒网卡,这个为何出错呢?而且为何一台服务器上网卡down掉,会引起另一台服务器停止服务呢?为何不会出现接管服务的情况呢?
二、故障解决
咨询系统服务商后,服务商提供一个《Dell R710 安装 RedHat AS 5.4 X64 网卡故障解决》①类似案例给我们做参考,Dell R710 用的操作系统是 RedHat As5.3 X64 会在正常运行中无故断网,原因是网卡在正常工作的时候,会被 ACPI 误以为他闲着,从而把它给关闭掉。这个是在RedHat系统中发现的网卡驱动问题,那么我们单位遇到的是这个问题么?我们的服务器虽然是R710,但是操作系统是WINDOWS2003 SERVER,网上没有类似问题。是否是网卡驱动惹得祸呢?于是检查网卡的驱动,发现网卡驱动的版本是4.8.5.0,而最新的驱动是5.0.14.0,但是当检查完DELL服务器的网卡升级驱动后,没有发现针对ACPI电源管理的驱动补丁,因此即使升级驱动可能也无法解决这个问题。而服务商提供的解决方法是降低网卡的驱动版本,即找一个相对稳定的驱动版本,但是这样不利于发挥网卡的最大性能,这种方法被忽略。于是采用关闭网卡节能模式,虽然增加了功耗,但是服务器能够提供稳定的服务是我们工作的宗旨。经过近3个月的观察,发现没有类似问题出现,确信网卡ACPI电源管理问题已经解决。
为何另两个服务器都停止服务呢?因为服务器本身服务正常,网络存储连接也正常,而且心跳线出现问题,两台机器也无法确认对方状态,因此出现争抢服务的现象,导致两台服务器都无法提供正常服务,即没有出现接管服务。
三、经验总结
本次事故是因为一根网线松动引起的网络数据锁死,引起网卡ACPI电源管理以为网络是空闲,导致的网络故障。网卡ACPI电源管理应该说是很环保的一项技术,但是需要根据使用情况而定。在双机互备这样的高负载网络环境下,对网络环境和软件环境都有很高的要求,因此需要谨慎安排自己的服务器策略。
参考文献:
[1]《Dell R710 安装 RedHat AS 5.4 X64 网卡故障解决》
上一篇:基于数字水准仪条码评价指标研究
下一篇:网络监听检测及防范技术研究