金税三期EAD项目疑难问题集锦

  金税三期EAD项目,我司负责的26个局点已基本完成,除个别局点等待用户统一签收。由于客户网络环境的差异,在项目实施过程中,难免会遇到各种各样的问题,其中影响进度最大的几个技术问题尤为突出,下面对这几个疑难技术问题做下汇总,以后IMC项目实施中可作为参考。

  1、 某局点开局后,IMC安装一切顺利,第一次启动IMC时发现uam进程出现错误,重启服务器后依然UAM进程异常,怀疑安装IMC过程中误操作,重新安装IMC后问题依旧。将LOG信息收集后发给IMC二线分析,二线答复,UAM进程端口被占用,导致UAM进程异常。检查IMC服务器发现,现场工程师将逃生工具和IMC安装在同一个服务器上,由于逃生工具的功能是模拟UAM的认证动作,二者对外使用同一端口,启动IMC时,如果逃生工具在运行中,则会导致UAM进程异常。处理措施:在IMC服务器上删除逃生工具,将逃生工具安装至其他服务器,重启IMC平台后,问题解决。

  2、 某局点预调研时未反馈清楚客户的网络结构,等正式实施时发现客户网络核心为双核心旁挂单个portal设备,此结构不符合portal旁挂要求,只能和客户沟通,要么使用单核心网络设备旁挂单个portal设备,要么将portal设备串接到网络出口中,没有其他更好的解决方法,此问题只能改变设备的挂接方式。

  3、 某局点开局后,现场工程师设置好EAD安全策略后,EAD检测不到安装过瑞星杀毒软件,首先怀疑是版本问题,将瑞星软件升级到客户许可的最新版,将EAD模块补丁升级到最新版,均不能解决问题,求助二线后得知,EAD模块检查杀毒软件是依靠系统中添加删除程序中的软件名字检查的,客户此次使用的瑞星杀毒是定制版,必须修改EAD的默认参数。处理措施:检查操作系统添加删除程序里的瑞星软件名字为瑞星某客户专用版,将此软件名称记下,修改EAD终端安全软件里的瑞星检查的名字,问题解决。

  4、 某据点开局后,IMC服务器安装完成,网络环境搭建完成,使用了非H3C网络设备,使用INODE客户端登录时提示连接失败,检查各个环节均未发现错误,将设备DEBUG信息收集发给二线后,二线分析结果为:设备收到INODE客户端登陆请求,但未将此请求转发给IMC服务器,可能是INODE的登陆报文未被设备802.1X识别。处理措施:将INODE默认的单播触发登陆改为组播触发,客户端下线时改为广播下线,问题解决。(此方法适用于华为、思科品牌设备)

  5、 某局点开局后发现IMC平台上显示的在线用户数比实际在线用户数少很多,通过重启IMC后发现,imc平台统计用户数目每过几分钟增加一些,过段时间后增加到实际数目,可第二天统计结果仍然与刚发现的情况一样,打开uam调试日志开关,收集信息发给二线后,二线答复:该局点是Quidway设备,此设备对radius计费特性的支持不确认。处理措施:检查imc服务器配置,在接入设备配置里将接入设备类型从H3C改为标准协议、组网方式从不启用混合组网改为启用混合组网,再次观察,用户在线可以看到时长,统计数目比之前明显多了,继续观察,所有用户都可以统计出来,解决统计数据不准确问题。

  6、 某局点在测试EAD功能中发现,PC通过802.1X认证后,从服务器下载大块数据时,会出现下载中断故障(客户自行测试,不通过认证时,下载过程中不会中断),这时用户PING服务器不通,断开Inode客户端,重新连接认证后,网络恢复正常。收集日志信息求助二线,二线分析后答复,大块数据阻断了802.1X握手报文的正常交互。处理措施:查看华为S5300配置手册,发现DOT1X具备参数:dot1x timer { client-timeout client-timeout-value | handshake-period handshake-period-value | quiet-period quiet-period-value | reauthenticate-period reauthenticate-period-value | server-timeout server-timeout-value | tx-period tx-period-value},其中handshake-period参数为设置握手报文的发送间隔,默认值为15秒,最大值为1024秒,在现场将其值改为900秒后,下载大块数据时再没有发生中断。

  7、 某局点开局后发现,客户使用思科设备,INODE客户端登陆成功后几秒钟就掉线,检查各个环节均未查出问题,查找思科相关案例后发现,端口需要配置spanning-tree portfast命令,配上此命令后,故障没再出现,分析原因如下:cisco默认情况下spanning-tree是开启的,当dot1x认证成功后,cisco设备上该端口就会up,此时由于生成树开启端口需要等待30s才能转发报文,然而身份检查会在dot1x认证成功后的几秒立刻进行(该时间远远小于30S),身份检查需要INODE客户端和IMC服务器进行报文交互,这个时候由于交换机端口不能转发报文,导致inode客户端和IMC服务器不能成功交互报文,导致安全检查失败,直接让用户下线。修改配置后,问题解决。

  8、 某局点在实施过程中发现客户一些电脑上装有隔离卡(电脑上装有两块硬盘且分别装有系统和一块物理硬件隔离卡,通过隔离卡来模拟两台不同的电脑,模拟的两台电脑分别叫做:内网和外网), 当内网和外网的电脑上未安装inode客户端的时候,两台虚拟电脑内网和外网都能正常运行,,安装INODE客户端后出现蓝屏。将故障信息抓拍照片发给二线后,二线确认是此版本INODE客户端与隔离卡不兼容造成的,可以修改系统参数避免此问题,在故障电脑上,右键“我的电脑”->“属性”->高级->“启动和故障恢复”点击“设置”2)将“写入调试信息”下拉框中修改为“核心内存转储”或者“完全内存转储”设置完毕后重新安装inode客户端,发现内网系统能够正常启动,未再出现蓝屏现象。

  9、 某局点在测试EAD功能中发现,用户通过iNode认证登录的时候可以通过身份认证,但是没有任何提示说明“安全认证成功”或者没安装病毒软件的客户端进行验证后也没有任何提示关于“安全认证不成功”,但是已经用户名认证成功了,还是不能上网。抓包分析后发现INODE客户端发出来了安全检查请求,但是服务器没有回应,检查网络环境时发现网络中有防火墙,在防火墙策略中发现未开放9012、9019端口,导致INODE安全检查不能顺利完成,与客户沟通后开放所需端口,问题解决。

  【编后语】在项目实施过程中,出现问题是正常的,重要的是要善于总结经验,在解决问题的过程中不断提升识别、分析和解决问题的能力,通过总结并分享自己的经验,提高整个项目团队的工作绩效,这是一名优秀工程师所应具备的基本素质。


2016年01月