M9000两框IRF堆叠主备切换无法从备框倒回主框故障案例分析

一、故障现象

1、组网结构(示意图)

 QQ截图20170822143632.jpg

2、冗余组相关配置

 QQ截图20170822143742.jpg

3、故障现象

拔掉主框和S12508三层聚合链路的其中一条物理链路,设备冗余组成功从主框倒换到备框;然后将拔掉的物理链路插上,发现接口灯亮了大概30s之后就灭了,接口down的原因是冗余组shutdown,但是长时间观察发现设备一直没有倒回到主框(默认倒回延迟1分钟)。

二、故障信息收集

1、故障时收集的冗余组状态信息。

QQ截图20170822143803.jpg

2、上联接口和下联聚合口的物理接口均显示是冗余组shutdown。

       Ten-GigabitEthernet1/5/0/29
         Current state: 
ETH-rddc Shutdown
         Line protocol state: DOWN(LAGG)
       Description: Ten-GigabitEthernet1/5/0/29 Interface
         Bandwidth: 10000000kbps
         Maximum Transmit Unit: 1500
         Internet protocol processing: disabled
         IP Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 3897-d65e-1957
         IPv6 Packet Frame Type:PKTFMT_ETHNT_2, Hardware Address: 3897-d65e-1957

  

       Reth2 :
       Redundancy group  : 0
       Member     Physical status    Forwarding status   Presence status
       XGE1/5/0/28  DOWN(redundancy down)   Inactive        Normal
       XGE2/5/0/28      UP          Active        Normal

3、执行手动倒换操作之后,设备切换到主框,track状态显示上联接口up了,但是下联的三层聚合接口还是down的,一会之后设备又从主框倒换到备框。

三、故障原因分析

1、设备正常情况下(即不做主备框切换时),业务流量转发正常。

2、修改配置测试:将三层聚合接口下端口最小数量配置删除,然后在冗余组中track同时追踪聚合接口和物理接口。测试主备框切换故障依旧,无法倒回。

3、为了排除物理链路的影响,业务正常转发时,采用shutdown接口的方式进行测试,而不是拔插光纤。shutdown接口之后,正常主框倒换到备框,然后执行undo shutdown时有如下报错信息:DRVPLAT/4/DrvDebug: -MDC=1; Bind the interfaces to one or two IRF ports or cancel the bindings on all of them.根据报错信息来看,IRF物理接口和业务接口放在一个芯片组上了

四、解决方案及注意点

查看现场配置,IRF物理接口为GE1/5/0/32、GE1/5/0/31、GE2/5/0/32、GE2/5/0/31,下联聚合物理接口为GE1/5/0/30、GE1/5/0/29、GE2/5/0/30、GE2/5/0/29,现场接口单板型号为NSQ1TGS32SF0,IRF物理接口和业务接口在一个芯片组上,该接口单板4个接口为一组,每一组的接口跑得业务类型必须一致,包括S12508上接口选择也是一样的,更换业务聚合接口之后主备倒换倒回操作测试正常。

所以在部署M9000两框IRF虚拟化时需要保证接口单板上每一组接口的用途必须一致,即要么组内所有接口用作IRF,要么组内所有接口用作业务。聚合接口如果配置了最小或者最大选中端口(link-aggregation selected-port maximum/minimum x),本端和对端设备务必配置成一致。由于设备支持手动倒回和自动倒回,自动倒回默认开启延迟1分钟倒回,如果时间配置成0设备不执行倒回操作。


2017年08月