某大型维保项目中客户Internet互联网专线丢包故障排查

一、故障问题介绍

某机场用户使用电信100M专线来承载机场某办公大楼所有内网用户访问Internet的流量。在用户上网高峰时,接二连三的收到用户投诉访问公网出现缓慢、延迟等情况。接到投诉后,我司工程师与客户人员通过电话沟通,在出口路由器H3C SR6602 ping 大包测试,从SR6602到电信100M专线的网关有一定量的丢包、延迟大等异常情况,分析后怀疑是100M电信专线故障造成大量用户上公网出现问题。客户将测试和分析结果报运营商,半小时后运营商回复:“电信专线测试正常,丢包故障应是客户路由器故障造成转发性能下降引起”。

二、网络结构示意图

   1.jpg

三、丢包故障排查

3.1 SR6602路由器自身转发性能故障排查思路

1、首先在路由器全局模式下开启firewall功能:firewall enable。

2、配置两条ACL,分别匹配从100M电信专线出和入两个方向的ICMP协议报文。

3、在SR6602路由器G0/2口的出、入方向下应用firewall。

4、排查测试时清除SR6602路由器的G0/2口所有报文信息。

5、从SR6602路由器ping电信网关116.52.157.1,然后查看接口统计信息。

3.2 SR6602互联网路由器转发故障排查配置过程

第1至第5步同3.1所示。

6、在SR6602上使用display firewall-statistics interface g0/2命令检查统计信息。

  Interface: GigabitEthernet0/2

  In-bound Policy: acl 3001

  From 2016-10-01 17:05:18 to 2016-10-01 17:06:10

     97 packets, 8148 bytes, 0% permitted,  入方向响应97个 ICMP报文

     0 packets, 0 bytes, 0% denied,

     516942 packets, 486335280 bytes, 100% permitted default,

     0 packets, 0 bytes, 0% denied default,

  Totally 517039 packets, 486343428 bytes, 100% permitted,

  Totally 0 packets, 0 bytes, 0% denied.

  Interface: GigabitEthernet0/2

  Out-bound Policy: acl 3001

  From 2016-10-01 17:05:18 to 2016-10-01 17:06:10

     100 packets, 8400 bytes, 0% permitted, 出方向发出现100个ICMP报文

     0 packets, 0 bytes, 0% denied,

     493780 packets, 208596851 bytes, 100% permitted default,

     0 packets, 0 bytes, 0% denied default,

  Totally 493880 packets, 208605251 bytes, 100% permitted,

  Totally 0 packets, 0 bytes, 0% denied.

根据上述统计信息分析发现Outbound方向的permit报文为100个,但是Inbound方向的报文为97个,说明SR6602路由器发包数量为100,却只接收到97个响应报文。

3.3 在100M电信链路抓包进一步排查丢包故障

1、在SR6602路由器上配置端口本地镜像功能抓取G0/2接口的ping包信息,将流量镜像至安装有wireshark流量分析软件的PC。

2、通过抓取SR6602出接口GE0/2 ICMP报文,确定有些响应报文丢失,网络故障应出现在100M电信专线这一段。抓包信息如下所示:

 2.jpg

 3.jpg

四、排查信息反馈与故障解决

根据电信100M专线丢包故障排查情况,我司工程师与客户讨论后,一致认为丢包故障由运营商引起,并与电信工作人员现场讨论该故障问题,提供相应的测试报告后,电信工程师终于认可故障应是由运营商引发的结论。

最后,在电信进行链路以及设备排查后,发现故障原因是运营商使用的接入层交换机比较低端,转发性能不足才造成网络丢包、延迟过大等异常问题,电信工作人员更换转发性能较好的二层交换机后网络恢复正常。

五、案例总结

在排查涉及运营商的网络故障时,我们的工程师必须用自己良好的态度、通过专业的故障处理流程逐步排除我方问题,确定故障是运营商的问题,并将故障交由运营商来进一步处理,以尽快处理好故障,更好的为客户服务。本案例就是一个很典型的例子,通过有力的证据定位故障原因在于运营商,问题就顺利的得到了解决。

通过本案例,对我们的工作有如下几点启发:

1、 确认丢包问题发生的位置,是路由器自身,还是运营商的100M专线。

2、 能熟练使用wireshark抓包分析软件。

3、 故障排查思路一定要有清晰。

4、 注意收集相关故障排查的日志、截图等信息作为证据。

5、 故障问题排查反馈条理清晰,表达描述一定要尽量准确,力求简略。


2018年11月