SDH技术

华为OSN3500设备HSC_UNAVAIL告警详细说明及定位

问题描述

华为OSN3500设备HSC_UNAVAIL告警,经过处理发现该告警有很多原因可能导致,NG-SDH设备现场会有很多情况上报HSC_UNAVAIL告警,下面对该告警的含义进行详细的说明。

告警信息

华为OSN3500设备HSC_UNAVAIL

处理过程

在处理过程,最终定位是交叉板故障,但通过分析,不仅是交叉板故障会导致该告警的上报,下面按上报告警的参数来列举可能会出现的故障:

1、告警参数PARA1 = 0x80时

表示备交叉板刚硬复位起来不到5分钟(5分钟的计时可是有点误差,在5~8分钟的范围内都属于正常,因为这个计时是从告警模块的任务开始运行之后开始计数的),如果此时没有其他异常,5分钟后这个告警会自动消失。

这个告警出现的时候不一定会影响交叉主备倒换,只是用来提醒用户此时最好不要对主板进行硬复位或拔板操作,以免影响业务(备板刚起来的时候要从主板同步一些数据),另外单板上有srv亮黄灯

2、告警参数PARA1 = 0x01时

表示备板检测到本板状态坏,出现此告警一般情况下会伴随着HARD_BAD告警,如果当前告警中无HARD_BAD告警,就要注意查询一下历史告警中有误HARD_BAD,同时备份黑匣子的记录,定位到具体是哪一方面的硬件故障引起的。(注意:如果当前告警种无HARD_BAD告警,还有一种可能是刚硬复位起来,上报了PARA1=0x81的告警,5分钟计时到之后取消了0x80的告警,所以剩下PARA1=0x01的告警,此告警是由于主机备份未完成置坏ready线引起,要主机备份完成后才会结束。)

3、告警参数PARA1 = 0x02时

表示业务板检测到备板坏,出现此告警的时候,一般业务板会同时上报T_LOSEX(业务板检测交叉送过去的业务总线有告警)或TR_LOC(业务检测到交叉板送过去的帧头、时钟、板坏等故障)等告警,同时通过0xCE4命令上报交叉板坏;如果是带扩展子架的UXCSB,也有可能是XCE单板上报BUS_ERR告警

<如果业务板或XCE单板没有上报相应的告警,很可能是未添加逻辑板位,或业务板上报告警有故障>

在交叉板上可以通过0xC47命令查看业务板上报交叉板的状态

:optp:9,0,77,1,c,47,0

:optp:9,0,77,1,c,47,1

4、告警参数PARA1 = 0x04时

表示交叉备板检测到2型BUS_ERR告警(即上报告警的总线主板检测正常,备板检测异常)

在交叉板上可以通过0xC47命令查看二型BUS_ERR检测的综合状态

:optp:9,0,77,1,c,47,2

:optp:9,0,77,1,c,47,3

具体告警如下

注意:交叉实际上报告警也有可能是上述四种情况2种、3种或4种的复合,如PARA1= 0x81、PARA1=0x03、PARA1=5、PARA1= 0x07等,此时要根据各个bit代表的含义逐步定位。

5、告警不消失

硬复位主交叉板进行主备交叉倒换后,出现HSC_UNAVAIL告警不消失。

该问题大致的情况如此:主机在给交叉板下硬复位命令前先下0xC52预复位命令,置交叉板坏离线(这样做的目前是为了实现交叉主备的快速倒换,减少对业务的影响),在单板真正复位之前交叉软件检测到单板状态坏上报HSC_UNAVAIL(PARA1= 0x01),之后由于主机方面处理的故障,单板复位后告警一直不消失,且无BD_STATUS告警上报。

出现类似的情况我们要及时去现场定位是否是交叉板的问题

方法一:

直接用0x211命令单板上是否还有告警

:optp:9,0,2,6,2,11,0,0

方法二:

也可以使用alm-set-bsrep命令打开原始告警上报功能,看交叉板是否给主机上报结束告警了,同时这个告警应该注册成来自单板.,即使交叉没有上报,在3分钟后也会在主机自动校验结束的。如果交叉板没有持续给主机上报告警,那无论如何都不是交叉板的问题了 。

根因

华为OSN3500 HSC_UNAVAIL只有备板会上报,该告警的含义如下:

告警含义:para[0]   表示告警的类型

BIT[0]:本板状态坏

BIT[1]:有业务板检测到本板坏

BIT[2]:本板检测到2型BUSERR

BIT[3~6]:reserved

BIT[7]:备板硬复位起来5分钟

para[1]   表示不可用板的主备状态

0-主板;1-备板

para[2]   表示板不可用的物理槽位号

9,10(3500设备)

80,81(1500,2500设备)

para[3~4] 0xff

建议与总结

该告警总结如下:

1、华为SXCSA交叉板硬复位起来后5分钟,如果无伴随其他故障,只上报HSC_UNAVLIABLE告警;

2、交叉板软件检测自身硬件故障,置单板坏,此时除上报HSC_UNAVLIABLE告警外,还伴随着HARD_DAD告警和其余导致硬件置坏的告警,如CHIP_FAIL,POWER_ABNORMAL等;

3、交叉板的FPGA检测到硬件故障,此时除上报HSC_UNAVLIABLE告警外,还伴随着HARD_DAD告警;

4、交叉软件检测到2型BUS_ERR,此时除上报HSC_UNAVLIABLE告警外,还伴随着BUS_ERR告警;

5、业务板检测交叉板送过去的时钟或帧头或信号有故障,报交叉板坏(交叉板本身无任何故障),此时交叉板只上报HSC_UNAVLIABLE告警,业务板上报T_RLOC或T_LOSEX告警;

HSC_UNAVAIL告警只有交叉备板才会上报!主交叉板不处理!


本章相关技术资料和SDH设备故障处理流程由深圳市世樾信息技有限公司收集整理(www.szdingwei.net),转载请保留!本公司专注华为SDH光传输设备,SDH传输设备的销售


销售Optix OSN3500_产品报价_销售厂家_产品特性_产品描述_深圳世樾信息科技SDH传输设备销售有限公司
供应Optix OSN3500_故障处理_安装调测_技术指标_技术参数_深圳世樾信息科技SDH传输设备销售有限公司

推荐信息

wechat

扫一扫关注我们

热线:15989490421 Wechat 3287806562