XX客户故障处理报告

一、故障现象

5月18日,用户反馈网络有问题。根据用户反馈情况,分析故障有二。其一,用户用地址池的方式做NAT时,效果不好,通过反复测试后发现有一个公网IP不能使用;其二,排除有问题IP后,内网用户访问外网时,存在偶尔无法访问或访问慢等问题。用户通过迁移线路的方式,使内网用户暂时通过其他线路访问公网,数据收发恢复正常。

二、网络现状

通过与用户沟通,了解用户当前的网络情况。用户一年多以前购买了新的核心设备,并重新规划和设计了内部网络。全网采用模块化的方式组网,整个网络分成XX、办公、安防等几个模块。关键性的位置均使用双机热备,以堆叠的方式实现负载分担。客户网络拓扑图如下所示。

 1.jpg

出现故障的是XX网络这一部分,包括的设备有XX网络所有设备,上行2台防火墙,出口一台NE40路由器。其中,2台核心是用户网关,并做了堆叠,实现负载分担和冗余;2台防火墙通过冗余技术实现主备,FW1为主,流量通过它来转发。地址转换是在防火墙上完成,外网路由器NE40只是作为汇聚设备,做简单的三层转发,路由器连接防火墙和ISP时使用的是两个不同的三层网段。

三、故障分析

故障一:尾数为232的公网地址无法使用

1、处理此故障时,结合实际环境先制定了如下的故障处理流程。

第一步,确定此地址无法使用;

第二步,确定问题位置;

第三步,确定问题原因。

2、故障分析处理过程如下。

为了完成第一步的操作,我们进行了如下工作。首先,在内网选取一台设备作为测试机;其次,为了不影响在网的其他用户,我们在防火墙上针对尾数为232的IP地址,单独设置一条NAT策略,此策略只匹配测试主机;然后,在测试机上进行ping测试,测试的目标设备为114.114.114.114和baidu.com,测试结果是没有响应,无法访问;最后,将防火墙上的策略修改一下,把尾数为232的地址改为233的地址,通过测试机进行测试,发现114.114.114.114和baidu.com均可以访问,由此确定232此地址有问题。

第二步,确定问题的位置,此部分主要通过分段测试和抓包来完成。首先,我们在测试主机上ping外网路由器NE40的内网口和外网口地址,结果都能联通;接下来,在测试主机上ping对端ISP的网关地址,不通;而采用尾数非232的公网地址是能通的,因此确定问题在NE40和ISP之间。

第三步,在NE40上对进出报文进行抓包,抓包结果显示只有出的报文,没有入报文。因链路是正常的,所以判断应是ISP网关一侧出现问题。

最后,通过客户联系ISP,将情况反馈给ISP协助其排除故障。最终ISP确定是有过滤策略将尾数为232的公网IP禁止了,从而导致不可用。

故障二:网络不稳定,效果不好

此故障的主要现象是内网用户访问外网时,状态不稳定。有的用户可以,有的用户无法访问;而且有些用户虽然可以访问,但是速度很慢,打开常用网站都要花费很长时间。

1、结合客户的具体环境,我们制定了如下的排障流程。

第一步,确定受影响的范围;

第二步,确定是否有网络拥塞;

第三步,确实链路是否正常;

第四步,确定各协议状态是否正常;

第五步,是否是设备软件BUG。

2、故障分析排除。

首先,通过PING测试,我们发现以防火墙为分界,内部访问正常,外部访问不是很理想,确定不稳定的原因在于内网。同时检测用户与网关之间的连通性,也是正常的。初步确定问题在核心交换机与防火墙之间。

其次,检查核心交换机、防火墙各接口的“300秒平均速率”和“突发峰值速率”,负载很小,均在正常范围;另外还有个重要的证据是因之前存在问题,所以客户将用户迁移了,目前使用此套网络的用户很少,可以说基本没有用户。因此可以确定不存在网络拥塞的情况。

再次,检查负载的同时,检查各接口的状态信息,结果显示均为正常。

最后,检查用户当前使用的网络协议。经过逐个排查,发现网络中使用的主要协议如堆叠等状态均正常,但是端口聚合存在不规范的情况。组网时,防火墙一侧,用户有设置端口聚合,而交换机一侧则没有。根据之前的一些案例,这样设置会留下很多隐患,会产生诸如转发表项的震荡、数据转发丢包等问题,因此确定问题应出在此处。

四、故障处理

在交换机一侧将端口聚合按要求配置好,用多台测试机反复进行PING和WEB访问的测试,结果显示速度和体验均正常,由此确定故障原因是端口聚合的问题。

五、总结

端口聚合本身就应该是两端同时进行配置的一种技术,还是需要按标准在两端同时进行配置,以避免出现问题。

配置端口聚合时有两种方法,静态聚合和动态聚合。两设备如果是直接互联,这两种聚合方式使用效果差不多,没有太大区别;两设备如果不是直接互联,中间有中继设备,则推荐使用动态聚合。

配置链路聚合时需要注意的问题:

1、参与聚合的接口需要有相同的配置;

2、两端都需要进行配置;

3、两端配置的模式应相同,不能出现一端静态聚合,一端动态聚合的情况;

4、不同厂商的设备推荐使用动态聚合。


2018年11月