珠海某集团RRPP环网广播播音业务故障处理心得

  一. 【问题描述】

  珠海某集团8台S5120交换机通过光纤互联组成RRPP以太环网,销售楼SW1交换机为RRPP环网主节点,SW2-SW8分别位于不同的生产办公楼内,SW2-SW8这7台交换机为RRPP环网传输节点。此RRPP环网作为该集团广播播音业务的承载网,播音设备所属厂家为广州ABK公司,播音业务服务器下挂在RRPP主节点SW1交换机上,其余7个传输节点分别接入若干台播放终端。希望最终通过在RRPP环网上部署二层组播协议从而在全厂区实现广播播音业务。组播业务VLAN为vlan100,交换机管理VLAN为vlan1。网络拓扑如下图所示:

  

图片7.png


  组播流方向如上图箭头所示

  问题的具体现象:选取SW2和SW8下挂的终端进行业务测试时,终端时而在线,时而掉线;语音数据包丢失,声音断断续续播放。

  二. 【信息收集】

  1、 从SW1上PING SW2-SW8七台交换机的管理IP地址无丢包,链路正常。

  2、 属于组播业务VLAN vlan100的ABK播音主服务器和各终端在初次加电时,设备通过自身系统给自己分配了192.100.0.0/16段的固定IP地址。在SW1-SW8上只有SW1交换机配有组播业务vlan100三层虚接口地址,且IP属于192.168.0.0/24段,其余七台交换机没有配置vlan100三层虚接口地址。

  3、 下挂播音业务主服务器的主节点SW1交换机上没有做组播查询器配置,SW1-SW8八台交换机上都没有做未知组播丢弃配置。

  4、 RRPP环网上的八台交换机都配置了组播快速离开,命令如下:

  #

  IGMP-Snooping

  Fast-leave vlan 100

  #

  5、在主节点SW1上通过dis rrpp verbose domain 1命令收集到环网状态信息如下:

  Domain ID : 1

  Control VLAN : Major 4092 Sub 4093

  Protected VLAN: Reference Instance 1

  Hello Timer : 1 sec Fail Timer : 3 sec

  Ring ID : 1

  Ring Level : 0

  Node Mode : Master

  Ring State : Complete

  Enable Status : Yes Active Status: Yes

  Primary port : GigabitEthernet1/0/27 Port status: UP

  Secondary port: GigabitEthernet1/0/28 Port status: BLOCKED

  环网状态为Complete,RRPP状态正常。

  三.【问题分析】

  RRPP+二层组播透传语音数据工作机制如下:

  在RRPP环网上,播音服务器、各台终端以及SW1-SW8八台交换机都加入vlan100,我们在vlan100中配置二层组播以透传语音数据。播音服务器下挂在销售楼SW1上,其它各办公厂房楼内下挂播放终端。所以我们通过组播查询器配置命令将SW1定义为vlan100组播组中的组播查询器,将RRPP环上SW2-SW8七台交换机加入vlan100组播组。服务器作为查询器会定时发送普通查询报文,收到报文的组播组成员主机报告自己属于该组播组。当一个主机要离开组播组时,主机会发送离开组报文,查询器收到离开组报文后,会立即向网络发送特定组查询报文,询问该网络内是否还有其它主机对该组播组感兴趣,在连续两次发送后,如果还没有主机回应成员报告,则认为该网段内已无该组播组成员,就停止对该网段的报文转发。若收到主机回应的成员报告,则表明该网段还有该组播组的成员,继续发送组播报文。

  从收集到的信息和二层组播工作机制分析,该问题的原因为组播配置不当以及交换机上组播业务VLAN vlan100三层虚接口地址规划配置错误。

  1、 主节点SW1上没有做组播查询器和未知组播丢弃配置。

  2、 SW1交换机配置的vlan100三层虚接口地址与主服务器和各终端vlan100三层虚接口地址不在同一网段,SW2-SW8这七台交换机上没有配置vlan100三层虚接口地址。组播业务VLAN vlan100三层虚接口地址规划配置错误造成RRPP环网无法在二层透传组播。

  3、SW1交换机没有做组播查询器配置,因为播音服务器挂在SW1上,所有播音终端设备都要和服务器通信以获取业务数据,所以需要将SW1配置为组播查询器,以便正常维护和管理组播成员关系。

  4、SW1-SW8八台交换机上都没有做未知组播丢弃配置,这样可能会在交换机上产生未知组播。

  5、 SW1-SW8八台交换机组播快速离开配置多余。

  四.【处理方法】

  1、 规划并配置SW1-SW8组播业务VLAN vlan 100的三层虚地址为192.100.0.3-192.100.0.10,且确认不与服务器和终端vlan100三层虚地址冲突。

  2、 修改SW1组播配置,在SW1上加上组播查询器和未知组播丢弃配置,删除组播快速离开配置。

  3、 在SW2-SW8交换机上加上未知组播丢弃配置,删除组播快速离开配置。

  其中RRPP主节点SW1组播配置如下:

  #

  igmp-snooping

  #

  vlan 100

  igmp-snooping enable

  igmp-snooping drop-unknown

  igmp-snooping querier

  igmp-snooping general-query source-ip 192.100.0.3

  #

  五.【结束语】

  做完配置修改后选取SW2、SW5、SW8下挂的终端做播音业务测试,没有再出现终端时而在线,时而掉线;语音数据包丢失、声音断续现象。业务测试一切正常,问题得到解决。该类故障提醒我们在设备入网、业务测试前要做好IP地址规划;正确的RRPP以太环网+组播部署和配置可以很好的为语音、视频监控等IT增值业务服务。


2016年01月