某市平安工程H3C存储设备硬盘恢复处理经验分享

  一、前言:

  某市平安视频监控系统作为该市治安报警联网监控业务的运行基础和技术支持,主要采用H3C iVS8000视频监控系统构建,调度、控制着全市18个派出所,350多个摄像头的图像数据。为保障图像存储的时效性及治安取证的需要,该市110报警指挥中心及18个片区派出所分别安装有H3C VX1500 IPSAN用于存储视频录像。

  二、故障背景:

  H3C VX1500 单台满插为16块SATA II硬盘,配备扩展机框后最多可以容纳64块硬盘。存储硬盘在电子设备中精密度较高,对运行环境温度、湿度及洁净度的要求也远高于其他设备,目前客户部分派出所提供的设备安装环境未能达到标准要求,设备运行中多次出现硬盘坏道、元器件烧坏等故障,对系统安全稳定的运行造成了一定的影响。在对客户提供系统运行意见和建议的同时,我司工程人员也加大了对该项目的服务保障力度。

  三、故障现象

  某派出所安装有一台VX1500存储设备,报障后集成商工程人员现场发现该设备16块硬盘中出现一块SATA II硬盘故障,经检测确认为硬件故障,并由集成商自行进行备件申请,当时系统显示存储正常、录像回放正常。可第三天又有一块硬盘硬件故障,检测为硬盘存在磁盘坏道,而且故障期间图像无法存储至IPSAN,无法进行该设备上监控录像的回放操作。此时该台设备已经存在两块故障硬盘,备件更换的硬盘还未返回。

  故障报到我司后,本人立即前往现场,客户方考虑该片区当前治安环境的需要,要求我方在最短时间内处理故障,保证监控图像回放正常、存储正常。

  四、处理过程

  单台VX1500满配16块1.0TB SATA II硬盘作为存储,实施时一般将其中15块硬盘进行RAID 5阵列操作,保证阵列在一块硬盘故障的情况下仍具备数据完整的冗余性,第16块硬盘将被设置为全局热备盘,确保RAID 5阵列中一块硬盘故障,热备盘能自动迅速顶替,保证RAID 5陈列的完整,此双重保障都为提高存储的安全运行。

  经过现场检测发现,第一块硬盘故障时,集成商工程人员当时的错误操作导致热备盘未能及时顶替故障盘,仍为空闲状态;而第二块硬盘故障直接导致该设备RAID5阵列在缺少两块硬盘的情况下停止操作。此情况下,在最短时间内处理故障,使原有图像存储最大限度保存的方法只能进行将硬盘复制操作,即将第二块故障硬盘忽略磁盘坏道,完全复制至空闲的热备盘。

  磁盘复制需要用到专用的DiskGenius工具,且准备替换的硬盘必须和源硬盘容量大小一致,另外还需要一台可以装载三块SATA硬盘的PC机。在客户处找到一台PC设备,本身装备的是SATA接口的硬盘,装载操作系统Windows XP,确认该设备具备加挂两块SATA硬盘的接口及电源后,具体步骤如下:

  1、 将VX1500关机后拔出故障盘(0:0:0:11)及热备盘(0:0:0:15),检查硬盘S/N号,并标注好标签。

  2、 将PC机自身系统盘作为主引导盘,再将0:0:0:11和0:0:0:15作为从盘加挂后开机。

  3、 在PC机上运行DiskGenius工具,点击“工具”栏,选择选择“复制磁盘”。

  

图片17.png


  4、 选择源硬盘和目标硬盘,VX1500的两块硬盘在软件中都显示为空闲,且都显示ST某某某x的序列号,此号码与硬盘背面的S/N号相同。

  

图片18.png


  5、 选择硬盘复制类型方法为“复制所有扇区”后点击开始,此类型复制忽略扇区中是否有数据及数据的完整性,1.0TB的硬盘完全复制耗时大约为3小时28分钟,复制磁盘的速度40MB/s左右:

  

图片19.png


  6、 复制过程中遇到源磁盘坏道时,软件会有提示,这时选择“是”,继续进行复制磁盘,此处的数据将会丢失。

  

图片20.png


  7、 硬盘复制完后,将PC关机,把目标硬盘0:0:0:15插回VX1500中,开机并刷新阵列。

  五、处理结果

  完成硬盘复制后,热备盘0:0:0:15将保存故障盘0:0:0:11中所有正常的数据,插回VX1500后,所有设备硬盘指示灯出现绿灯频闪,此现象为RAID5阵列处于同步状态,但因为原本15块硬盘组成的RAID5阵列中现在只有14块硬盘,此现象将持续,直到备件到达后插回VX1500,而通过视频监控客户端检测,该派出所管辖的摄像头故障之前的录像回放基本正常,数据保存率在95%左右,VX1500开启五分钟后,当前图像的存储也正常了。

  IPSAN的硬盘复制措施,是H3C存储提供应急方法之一,此外还有磁盘修复等手段,活学活用将使我们的技术服务工作更加高效、灵活。


2016年01月