MSTP故障处理案例分享

  一、问题概述

河南某地市人民医院的网络为典型的二层组网架构,核心为华三S10508交换机,接入设备为华三S5120系列交换机。在某天的上午,网络突然出现异常,导致全医院各个楼层、科室业务中断。

二、 问题排查

由于网络涉及到用户实时业务,网络中断直接导致医院收费等重要业务无法正常运行。接到用户反馈故障后立即出差到现场进行处理,到达现场后通过登陆设备发现设备上有如下提示信息:

%Apr 26 13:05:10:392 2000 S5120-MZ-L4-1 MSTP/4/MSTP_BPDU_FORMAT_ERROR: Port Bridge-Aggregation42 received MSTP BPDUs of different formats continually. Shut it down in order to prevent broadcast.

%Apr 26 13:05:10:633 2000 S5120-MZ-L4-1 LAGG/5/LAGG_INACTIVE_CONFIGURATION: Member port Ten-GigabitEthernet1/1/1 of aggregation group BAGG42 becomes INACTIVE because the port's configuration is improper for being attached.

%Apr 26 13:05:10:947 2000 S5120-MZ-L4-1 LAGG/5/LAGG_INACTIVE_CONFIGURATION: Member port Ten-GigabitEthernet1/1/2 of aggregation group BAGG42 becomes INACTIVE because the port's configuration is improper for being attached.

%Apr 26 13:05:11:228 2000 S5120-MZ-L4-1 IFNET/3/LINK_UPDOWN: Ten-GigabitEthernet1/1/1 link status is DOWN.

%Apr 26 13:05:11:358 2000 S5120-MZ-L4-1 IFNET/3/LINK_UPDOWN: Ten-GigabitEthernet1/1/2 link status is DOWN.

%Apr 26 13:05:11:489 2000 S5120-MZ-L4-1 IFNET/3/LINK_UPDOWN: Bridge-Aggregation42 link status is DOWN.

通过该信息初步判断部分楼层交换机接收到不同格式的MSTP报文导致关闭上行接口,造成网络中断。由于用户业务较为重要,为了最快时间恢复业务,将出现问题的交换机上行接口的STP功能关闭,避免由于以上原因造成接口的关闭。经过该操作后,所有出现问题的交换机网络通信正常,业务恢复。

三、故障分析

在确保业务恢复正常后,进一步分析产生该问题的原因。由于用户有重要业务在运行,无法通过故障复现来进行抓包、debug进行分析。初步推测有可能网络中存在STP异常攻击报文,在核心交换机上,对连接出故障接入交换机的下联接口进行端口镜像,使用wireshark抓包,未发现STP协议异常报文。

然后,在用户下班时间,通过用户业务量比较小的影像科的一台接入交换机处模拟故障场景进行debug抓包分析,发现有以下信息:

Port225(Bridge-Aggregation22) Rcvd Mstp-legacy Packet(Length: 103)

Protocol VersionID: 03

BPDU  Type     : 02

CIST Root ID     : 32768.80f6-2e37-6459

External RPC     : 0      

Reg Root ID      : 32768.80f6-2e37-6459

Internal RPC     : 0      

CIST Bridge ID    : 32768.80f6-2e37-6459

CIST Port ID      : 128.024

(Instance)Flags   : (00)Desi[  AF    ] 

Port225(Bridge-Aggregation22) Rcvd Mstp-dot1s Packet(Length: 102)

Protocol VersionID: 03

BPDU Type      : 02

CIST Root ID     : 32768.08e8-4f6d-cb01

External RPC     : 0      

Reg Root ID      : 32768.08e8-4f6d-cb01

Internal RPC     : 0      

CIST Bridge ID    : 32768.08e8-4f6d-cb01

CIST Port ID      : 128.010

(Instance)Flags   : (00)Desi[  AFL   ] 

Port Bridge-Aggregation22 received MSTP BPDUs of different formats continually. Shut it down in order to prevent broadcast.

通过该信息,最终确定问题产生的原因:交换机上联接口开启STP协议后,由于华为与华三的MSTP BPDU报文缺省格式不同,华为的是Mstp-dot1s格式,华三的是Mstp-legacy格式,交换机接收到不同格式的BPDU数据后关闭了上连接口。

经确认,华为设备为用户近期新增设备,故障发生的原因可能由于将华为设备接入网络触发了STP协议。

四、解决方案

确认该故障产生原因后,确认用户网络中仅部分接入交换机开启了STP功能,核心交换机和部分接入交换机没有开启,因此临时关闭了相关交换机的上联接口的STP功能以确保业务正常运行。另外,告知用户协调华为工程师更改相关报文格式。 

用户的网络往往由多个厂商多种不同的型号组成,网络中会使用多种网络协议,但可能一个很小的技术细节都会导致全网瘫痪。千里之堤,溃于蚁穴,作为技术人员,需要我们在项目实施和项目维护过程中一定要细心。

 


2016年11月