运用流量统计功能快速定位某机场生产网丢包案例

一、    网络拓扑

某机场航站楼生产网如下图所示,其中H3C S9512E为核心交换机,H3C S7506E为汇聚交换机,H3C S5120-EI为接入交换机,采用三层网络架构来搭建生产网。

           1.jpg

二、    故障现象

由于该机场需通过生产服务器数据指导生产,因此客户对网络要求较高。某日接客户反馈终端访问生产业务系统卡顿,数据传输时断时续,更换IP地址后恢复正常。由此,客户怀疑使用的网络设备H3C S9512E、H3C S7506E、H3C S5120-EI中存在设备转发层丢包问题。

三、    处理过程

1、 接到客户通知前往现场,使用故障终端ping服务器测试是否出现丢包现象。通过检查该局域网部分IP地址至服务器丢包,部分IP地址至服务器不丢包。

2、 紧急联系厂商工程师,并将诊断信息发送至二线以及研发工程师分析未发现设备运行状态、单板状态以及CPU内存异常。

3、 在客户允许的情况下,对核心交换机(S9512E)、汇聚交换机(S7506E)做流量统计,通过中间设备的统计结果对各层设备的报文转发情况做分析判断。

核心交换机流统结果:

2.jpg

汇聚交换机流统结果:

3.jpg

 

通过汇聚和核心交换机流量统计结果对比可以发现:汇聚交换机接口接收数据和发送核心交换机的接口转发数据包一致,由此判断汇聚交换机(S7506E)未出现设备转发层丢包现象;核心交换机接口接收汇聚交换机的数据时,出现丢包的情况。

4、 检查两台设备之间互联接口光衰不稳定,出现CRC校验出错,由此定位丢包出现在汇聚交换机与核心交换机链路之间。

四、    原因分析

通过上述分析以及核心与汇聚之间采用两条万兆链路进行链路聚合,聚合口的数据转发采用哈希算法负载流量,当流量经过该聚合口时,部分流量被哈希算法负载至故障链路,导致终端至服务器出现丢包、数据重传的现象。

五、    解决办法

更换汇聚交换机至核心交换机之间的万兆链路,解决该故障。

六、    故障处理总结

1、 维护工作中遇到此类跨设备转发丢包的问题,尤其是遇到紧急问题时,使用流量统计可以快速定位故障,帮助客户迅速恢复业务。

2、 在开启流量统计的时候,务必在流量经过的设备均开启,精准定位丢包的位置。

3、 结合组网信息和设备信息准确分析,流量经过聚合口哈希算法负载到故障链路以后,出现部分IP丢包,部分IP不丢包的问题。


2018年11月