某银行大楼局域网故障处理

  2011年初开始在建行G省分行办公大楼值守,大楼局域网出现办公终端 Ping 东郊机房OA服务器偶尔有丢包的问题,经现场察看设备信息,以及镜像抓包分析,定位问题原因为部分办公终端瞬间发出大量arp报文导致核心交换机CPU瞬时升高,从而造成局域网瞬间丢包,现就问题的详细分析过程如下:

  1. 【问题描述】

  问题的具体现象是:东风大楼的办公网办公终端 ping 网关,或者ping 服务器,正常情况下无丢包,延时也在10ms以内,偶尔会出现延时增大到100ms以上并出现丢包,造成计算机的弹出画面暂时卡住,几秒到一分钟之后自动恢复。连线客户端每隔一段时间,会提示MaCfee病毒库过期,而客户端已经设置了自动更新,且自动更新为上班期间,主要集中在每日下午四点到五点。具体的丢包情况如下:

  最初40楼反映计算机瞬间卡住的问题反映,当时登陆交换机时的接入交换机的状态和瞬间卡住的时候PING OA服务器和网管的网络延时均连续而稳定。

  从3月14号下午四点到五点之间PING OA服务器和OA服务器网关的延时统计如下所示:

  终端Ping网关 56.0.160.98,ping包4033个,丢包9个,丢包率0%,

  终端PingOA服务器 56.0.160.16,ping包4025个,丢包11个,丢包率0%。

  以下为3月17号下午4点半到5点存在少量的ARP告警的条件下测试OA服务器与网关延时统计:

  Ping网关 56.0.160.98,ping包1365个,丢包2个,丢包率0%,

  PingOA服务器 56.0.160.16,ping包1393个,丢包0个,丢包率0%。

  2. 【问题原因】

  1.在办公终端 ping 网关或者服务器出现丢包的瞬间在网关设备及H3C S9508交换机上查看CPU 任务,开启交换机设备的隐藏命令,发现处理 ARP报文的进程耗费CPU资源急剧上升,如下:

  [SW11-hidecmd]_dis task 6

  ID Name Priority Status CPU Time

  1 WEIL 10 Ready 7/11

  ……

  30 L2PS 100 Delay 1/106

  31 DL3 100 Event Sem 98/221

  ……

  36 ESFP 11 Delay 1/2

  而在正常时该进程耗费cpu如下:

  [GD_DL_SW11-hidecmd]_dis task 6

  31 DL3 100 Event Sem 1/221

  同时在S9508上查看设备log,发现存在arp攻击告警,部分告警如下:

  %Mar 16 18:11:01 2011 GD_DL_SW11 DIAGCLI/5/LOG_WARN:Slot=6;

  Detect ARP attack from MAC 0021-97c2-2e8b, VLAN: 54, GigabitEthernet6/1/10 !

  %Mar 16 18:10:43 2011 GD_DL_SW11 MSTP/3/NOTIFIEDTC:Instance 0's port GigabitEthernet6/1/5 notified topology change!

  %Mar 16 18:10:11 2011 GD_DL_SW11 DIAGCLI/5/LOG_WARN:Slot=6;

  Detect ARP attack from MAC 0016-ec3f-4a02, VLAN: 54, GigabitEthernet6/1/10 !

  针对告警出现的几个mac地址,在交换机上对其镜像抓包,抓包时间为10分钟,在S9508log提示0021-97c2-2e8b出现攻击的时候该办公终端在100ms之内发出了240个arp请求报文,另一个mac0016-ec3f-4a02也在100ms之内发出240个左右的arp请求报文。

  

图片39.png


  2.经过查询,全省的MaCfee杀毒软件自动更新时间全部都是下午五点之前那段时间,此时也到了下班的时间,大量的客户端在同时更新病毒库,可能会有部分MaCfee客户端在下班前升级不成功,当未成功升级天数超出策略系统限制阈值时,客户会收到不满足安全策略的告警信息。策略未满足的前提下访问受限的资源,将会收到被拒绝的提示信息。

  3. 主机较为陈旧硬件配置已达不到应用要求(CPU单、物理内存不够);开启多个任务时,物理内存已全部耗尽,虚拟内存也已经使用了近一半的资源,CPU利用率也达到60%已上,主机的运行状态已达到性能瓶颈,因此会出现访问网络资源慢的问题。在加上杀毒软件和防火墙的过滤,导致性能进一步下降。

  3. 【问题分析】

  综合以上分析,可以得出结论:大楼局域网内部分办公终端怀疑中病毒(已经基本查出其IP地址和MAC地址),导致这些办公终端或是下联的HUB会不定时的在很短的时间内(100ms内)发出数百个arp报文,导致核心交换机或是接入交换机cpu瞬间升高,但未超出40%,最终导致局域网内部分办公终端出现偶尔的ping丢包,主要集中在用户流量大,上传下载频繁的时间段。但是大部分时间下也存在少量的ARP告警,并未出现丢包或是延时高的情况。

  现在初步分析除了某些可能的ARP攻击之外,其余的过多的ARP还是某些通信软件造成的,比如说飞Q、飞鸽等局域网共享软件,16楼的一种专门用来办公的业务软件,上述软件经常性的扫描网段,造成ARP泛洪。

  4. 【解决方案】

  该问题由办公终端病毒异常发包导致,建议解决方案如下:

  1.根据H3C S9508上的log告警提示的存在arp攻击的日志,将相应办公终端隔离杀毒,从源头上根除,清除终端上的局域网共享软件,比如飞Q,飞鸽等,在接入交换机上封杀445,2425等端口;

  2.为避免类似问题再次出现建议在接入交换机连接终端办公终端的端口上增加相应的arp保护机制:

  [Sysname-Ethernet1/0/1]arp rate-limit enable

  [Sysname-Ethernet1/0/1]arp rate-limit 10 //每秒允许的arp报文数为10 pps

  [Sysname-Ethernet1/0/1] arp filter source *.*.*.* //这里配置网关地址。

  3.建议加强办公终端终端的防病毒能力,避免病毒在局域网内再次出现;争取封掉短时间发出的ARP的端口,可能端口下面连接HUB和打印机,会导致部分用户受到牵连而无法联网办公和打印机无法使用。在条件允许的情况下,建议员工提升终端的配置,定期为员工清除系统垃圾,整理软件,做好优化。现有16楼部分发出ARP攻击的办公终端上装有Business Object在各个软件,这个软件导致16楼的00e0-4cc2-6b37,0021-97c2-2e8b这两个办公终端的ARP包特别多产生告警。

  4.麦咖啡杀毒软件占用系统资源的优化。


2016年01月