某市移动防火墙F5000-A5故障处理

  1. 项目背景

  某市移动CMNET网络采用2台华三F5000-A5防火墙作为安全检测设备,2台防火墙一主一备,实现负载均衡,某日接到客户电话说备机出现故障,当日迅速赶到现场处理故障。

  2. 故障现象

  到达现场后使用CONSOLE口接入设备发现设备备机OSPF邻居丢失,PING直连设备端口不通,并且前一天晚上设备发生过异常重启。

  3. 解决方案

  3.1 咨询客户网络拓扑

  

图片13.png


  3.2 进行OSPF恢复测试

  1. 使用命令display peer查看邻居为空;

  2. 重置OSPF密文认证,仍然没有邻居;

  3. 直接PING直连设备的端口发现不通;

  4. 查看端口状态发现没有任何收发报文。

  3.3 查看是否物理链路故障

  经过仔细查看光纤无损害,光模块工作正常,业务板光口灯亮当不闪,无数据流通过。

  3.4 与客户沟通是否可以重启故障板卡

  因备机故障现所有业务都从主机通过,备机处于DOWN状态,客户同意重启故障板卡,重启后OSPF学到邻居信息,数据业务正常通过,但过1到2个小时后仍出现故障,表现状态与重启前相同。

  3.5 抓取相关信息,提交研发查明原因

  1. 使用命令display logbuffer,抓取LOG信息;

  2. 使用命令display version,抓取版本信息;

  3. 使用命令display diagnostic-information,抓取诊断信息;

  4. 进入到隐藏模式,使用命令display exception 10 verbose查看堆栈信息;

  5. 将所有抓取信息提交给研发人员确认故障原因,并等待回复。

  4. 处理结果

  4.1 经研发确认为主控板硬件故障;

  4.2 研发建议将备用防火墙的主控板和业务板硬件返回,做进一步分析;

  4.3 马上进行RMA备件申请流程,申请新的板卡尽快恢复客户业务。

  5. 经验总结

  5.1 到达现场与客户沟通故障发生时间和现象,是否影响业务;

  5.2 与维护人员沟通网络拓扑,了解上下行设备;

  5.3 登陆设备进行数据调试,排除是否为数据配置原因;

  5.4 查看物理线路和上下行设备,排除是否为物理故障;

  5.5 排除以上原因,抓取相关信息反馈给研发人员帮忙确认故障原因;

  5.6 故障原因确定以后迅速拿定解决方案并实施;

  5.7 与客户沟通解释故障原因并形成故障报告交付相关人员。


2016年01月