某银行iNode认证故障解决及信息收集方案

  1. 【故障描述】

  近期经常有用户报拨号失败故障,在IMC平台上有很多账号出现其他用户正在认证故障,一线人员发现南楼S3600系列交换机多台报CPU使用率过高,影响用户正常使用网络。

  2. 【故障分析】

  5月23日再次出现问题,紧急赶往现场,采集diag信息分析,发现上送cpu 报文存在异常情况。通过5.23日11:30分抓取的信息,发现有一个用户(MAC:4437-E620-5E8B IP:192.168.100.1)PC机频繁发送大量DHCP广播报文,此报文上送交换机的CPU,并造成交换机CPU过高。

  6月3日西单南楼交换机CPU利用率又一次过高,经过抓取相关信息发现仍然是上次的用户(MAC:4437-E620-5E8B IP:192.168.100.1)PC机频繁发送大量DHCP广播报文,造成交换机CPU过高。现场人员发现该PC通过外接了一块无线网卡私自搭设DHCP服务器给楼层内用户使用。将该网卡拔出后交换机CPU利用率恢复正常。

  3. 【优化及排障方案】

  1) 网络优化部分:

  1、 优化过滤vrrp报文上cpu处理

  命令:[H3C]system-guard transparent vrrp

  2、 优化过路子网广播报文上cpu

  命令:[H3C]system-guard transparent ip-broadcast ip地址 掩码长度

  该命令目前可以对10个网段进行优化,建议对以下10个IP所在的网段进行优化。

  3、 优化过路ospf报文上cpu处理

  命令:[H3C]system-guard transparent ospf

  注:网络中虽然ospf的配置比较规范,终端网关已配置silent-interface接口,为了防止后续网络变动带来的影响建议也配置该命令。

  4、 关于端口下组播广播报文抑制参数优化。

  目前端口的配置,如下:

  broadcast-suppression pps 100

  multicast-suppression 50

  unicast-suppression 50

  观察网络中的配置:

  broadcast-suppression pps 15

  multicast-suppression pps 15

  原来的配置对于组播、未知单播的限制为端口带宽的50%,对于缓解上cpu报文没有实际意义。数值需要根据实际网络中的报文比例进行限速调整。

  2) 关于cpu 高收集信息方案如下:

  1、cpu高时收集如下信息:

  dis cpu ----》显示cpu信息,查看哪个unit的CPU占有率高,然后把串口插到CPU高的unit上,开始收集信息。

  _h ----》进入隐藏视图

  dis cpu

  _dis stp tc

  dis irf s

  dis drv ni

  dis reserved-memory sec 0 cpuhigh

  quit ------》在隐藏视图下连续收集两次,退到用户视图。

  t d

  t m

  debugging drv packet drvrcv

  收集一分钟上cpu报文

  _dis stp tc

  2、 从目前几次收集的信息看,皆为44 37 e6 20 5e 8b发送的异常报文,需要抓取该mac发送的具体dhcp 异常报文。

  (1)如果可以连接到那个无线设备的话,可以在终端上直接抓取。

  (2)如果下面的终端继续使用该网卡,复现该问题,抓取异常dhcp offer 报文。可以直接配置端口为access vlan 605 ,且配置cpu高设备连接75E的端口为镜像源端口进行镜像。然后连接pc抓包,驻场人员在出问题第一时间,远程配置镜像,现场人员直接接网线抓包即可。

  (3)正常情况下pc无线网卡发送的dhcp offer报文不应该进入有线网络。为了彻底查清楚该报文从何处进入有线网络以彻底消除安全隐患,建议在7楼、8楼接入交换机连接S36v2交换机端口及8楼1/0/32端口及其他接入终端的端口上对dhcp offer流量统计,确认下行端口是否收到该报文。再次出问题时或者上述流量统计计数有增长时,抓取异常dhcp offer报文(将端口直接划入vlan 605 且配置镜像,镜像上行端口报文)

  (4)从5月21日取的75E的Diag,发现4437-e620-5e8b这个有在Bridge-Aggregation53学习到,建议也在5楼的交换机的下行端口上配置及与dhcp offer的报文统计。

  3) 认证方面收集信息:

  当有用户离线时,利用端口镜像抓取接入设备上行端口的认证报文信息,并在直连pc上抓取认证报文(使用测试账号),需要有用户进行认证,将认证失败过程都抓取下来,收集报文数据。

  镜像的配置举例:

  进入镜像源端口,配置镜像源端口,如E1/0/1口:

  [H3C]interface Ethernet1/0/1

  [H3C-Ethernet1/0/1]mirroring-port both

  进入镜像目的端口,配置镜像目的端口,如E1/0/2口:

  [H3C]interface Ethernet1/0/2

  [H3C-Ethernet1/0/2]stp disable

  [H3C-Ethernet1/0/2]monitor-port

  注:抓取完报文后请删除镜像的配置及在端口下重新使能stp enable 。

  4. 【临时规避方案】

  1、在设备上开启DHCP SNOOPING功能,通过设置trust端口和untrust端口过滤掉DHCP OFFER。

  2、在S75E上基于vlan 605 配置deny的acl ,或者在所有连接接入交换机的物理端口上配置acl deny dhcp 的offer 报文,端口较多工作量大。

  针对这几次都是44 37 e6 20 5e 8b这个地址在vlan 605中发送的dhcp offer报文大量冲击交换机cpu ,导致cpu 高。临时可以通过在S75E 上基于vlan 下发acl deny掉该报文,暂时避免该报文再次对网络造成影响。

  【定位方法中的部分内容详解】

  翻译上cpu 报文内容。

  通过debugging drv packet drvrcv命令可以打印上cpu报文内容,通过dis reserved-memory sec 0 cpuhigh 命令可以查看近期上cpu较多的报文。现对下面的报文进行翻译。

  1、堆叠设备报文如下:

  No.1 Ticks: 5821869, port 24(GigabitEthernet3/1/1), Reason 0x0, Len: 337 ----》报文从g3/1/1接收到的。

  0000 ff ff ff ff ff ff 44 37 e6 20 5e 8b 81 00 02 5d

  0010 0c 60 08 10 08 00 45 00 01 3b 4d 08 00 00 40 11

  0020 08 01 c0 a8 64 01 ff ff ff ff 00 43 00 44 01 27

  0030 61 c0 02 01 06 00 f3 c5 3f 65 00 22 00 00 00 00

  特殊颜色部分意义如下;

  目的mac(ff ff ff ff ff ff),源mac(44 37 e6 20 5e 8b),是否带有vlan标签(81 00,带有),vlan 号(02 5d),上层协议号(08 00,ip报文),ip报文头中的上层协议(11,udp),源ip(c0 a8 64 01),目的ip(ff ff ff ff),udp源端口(00 43),udp目的端口(00 44)。

  注:0c 60 08 10 为堆叠设备特有字段,设备内部识别作用,对于用户分析无意义。

  2、如果该报文是从非堆叠设备上抓取的,则如下翻译。

  No.1 Ticks: 5821869, port 24(GigabitEthernet3/1/1), Reason 0x0, Len: 337 ----》报文从g3/1/1接收到的。

  0000 ff ff ff ff ff ff 44 37 e6 20 5e 8b 81 00 02 5d

  0010 08 00 45 00 01 3b 4d 08 00 00 40 11 08 01 c0 a8

  0020 64 01 ff ff ff ff 00 43 00 44 01 27 61 c0 02 01

  0030 06 00 f3 c5 3f 65 00 22 00 00 00 00

  特殊颜色部分意义如下;

  目的mac(ff ff ff ff ff ff),源mac(44 37 e6 20 5e 8b),是否带有vlan标签(81 00,带有),vlan 号(02 5d),上层协议号(08 00,ip报文),ip报文头中的上层协议(11,udp),源ip(c0 a8 64 01),目的ip(ff ff ff ff),udp源端口(00 43),udp目的端口(00 44)。

  3600交换机流量统计的方法:

  system-view

  [Sysname] acl number 3000

  [Sysname-acl-basic-3000] rule 0 permit udp source-port eq bootps destination-port eq bootpc

  [Sysname-acl-basic-2000] quit

  [Sysname] interface Ethernet1/0/1

  [Sysname-Ethernet1/0/1] traffic-statistic inbound ip-group 3000 ---》下发统计规则

  [Sysname-Ethernet1/0/1] reset traffic-statistic inbound ip-group 3000 ----》情况统计信息

  查看统计信息的方法如下:

  [H3C-Ethernet1/0/1]dis qos-interface Ethernet 1/0/1 traffic-statistic

  Ethernet1/0/1: traffic-statistic

  Inbound:

  Matches: Acl 3000 rule 0 running

  0 packet inprofile

  0 packet outprofile


2016年01月