XX公司数据转发异常故障分析

  故障现象:

  目前网内数据流主要分为生产流(100.0.0.0/8)和办公流(50.0.0.0/8)两类数据流。通过在广域网路由器上使用路由策略分流使省信息中心到地市生产数据走A->B->D->F->H->I ;办公数据走A->C->E->G->J->K。反之,地市到省信息中心数据也保持相同路径返回。网络中防火墙均工作在透明模式下。

  

图片29.png


  2008年某日,市信息中心更换广域网路由器SR66后,做线路切换测试,发现如下故障现象:

  断掉地市SR66-2上L和J线路,保持广域网G线路。如此一来,地市到省信息中心的办公数据流只能和生产数据流共用网通线路出口。地市到省信息中心办公流数据路径如I->H->F->D->B->A。但因为广域网线路G没有断,省信息中心无法感知地市局域网线路断掉,因此,省信息中心返回报文应该遵循A->C->E->G->J->K路径返回。因为J线路已经断掉,因此数据到地市SR66-2是会丢弃,这样地市到省信息中心办公业务应该中断。

  但是在该市信息中心实际测试时发现,断掉L和J后,地市到省办公系统仍然能正常通讯。

  

图片30.png


  故障分析

  从省信息中心核心交换机上查看到该市办公50.50.0.0/16网段路由,发现下一跳正常指向了备用SR8808。在省信息中心OA服务器50.0.2.88上ping测试该市服务器50.50.2.111不通。省信息中心到地市主动发起的连接遵循路由策略配置正常转发到了该市备用SR66-2。因为J和L线路断掉,下一跳不可达,因此SR66-2丢弃数据流。数据流向正常。

  该市主动发起访问省信息中心的办公类数据流,因为J、L线路断掉,报文遵循I->H->F路径,通过网通线路访问省信息中心。到SR88-1后,通过B->A路径正常转发至主用核心交换机6509-1。以上判断通过在FW1上配置流量检测已经确认。

  那么,正常情况下,省信息中心到该市返回的报文应该通过A->C->E->G->J->K路径返回,到SR66-2下一跳不可达,数据丢弃,应该不通。

  但实际测试时发现该市访问省信息中心可以正常通讯。

  处理过程

  通过以上的故障分析,怀疑由该市主动发起的访问数据,省信息中心回应时仍然通过A->B->D->F->H->I路径转发。为了验证此推断,在两台SR88连接防火墙的接口上配置ACL,通过ACL匹配的数量来判断S6509-1把报文转发给了那个SR88。ACl配置如下:

  acl number 3900

  rule 5 permit icmp source 50.0.2.88 0 destination 50.50.2.111 0

  traffic classifier test operator and

  if-match acl 3900

  traffic behavior test

  accounting

  qos policy test

  classifier test behavior test

  最后,把QOS 策略test应用到两台SR88连接防火墙的接口上。

  以上工作完成后,该市主机50.50.2.111 Ping测试省信息中心主机50.0.2.88。在两台SR88上查看ACL匹配情况。发现备用SR88-2接口无报文匹配,主用SR88-1接口上有报文匹配。这样就说明,省信息中心返回的回应报文是转发至SR88-1上,而没有正常转发是SR88-2上。

  那么现在可以怀疑是FW或者S6509转发故障。重新连接J、L线路,在SR88上清空ACL计数器。重新用该市主机50.50.2.111 Ping测试省信息中心主机50.0.2.88。在两台SR88上查看ACL匹配情况,发现SR88-1无匹配报文,SR88-2有匹配报文。说明,在线路正常的情况下,S6509转发是正常的,路由策略正常生效。

  通过以上测试,基本可以推断是安氏FW造成此次数据流量异常现象。第二天联系安氏防火墙厂商技术人员,确认了是由于安氏FW会检测数据流的进站接口,并标记。相同的数据流,从那个接口进站,回应时就从那个接口出站。

  因为省信息中心安氏防火墙工作在透明模式,所以一开始并没有怀疑是防火墙问题,在路由器上耗费了大量的时间查找故障。其实,如果马上把网线跳过防火墙,该故障很容易定位。这个案例就告诫我们,网络中如果出现流量异常,那么就需要对网络中所有有能力更改数据转发的设备均进行排查,尤其要重点测试防火墙。个人能力有限,做一拙文以抛砖引玉,请各位同事多多指教。谢谢!


2016年01月