机房的存储系统作为目前大数据云盘算时代的基础,它的稳固才是支撑起如此海量数据的根本所在。所以各个行业对于这部分十分器重,所以在此针对存储系统的故障处理简略说一下。
首先在处理存储系统产生的故障前,一定要对于全部存储系统的架构以及原理有必定的懂得。广泛来讲存储系统由服务器、交换机及存储设备组成。它们之间是直连或者是IP网络或FC网络的方法进行连接。全部系统的稳固性跟每个组成部分都息息相干的。
其次懂得故障的分类,故障分类大致分为硬件故障、配置故障或者license类问题,先外部后内部,先处理高级警告后处理低级警告,先共性后个性。
面对故障的产生,第一步永远都是先进行必要的信息收集,在进行分析,对于全部存储系统的基础信息,故障信息、存储设备信息以及组网、主机服务器信息要有必定的懂得。这些部分可以直吸收理到主机、交换机或存储设备中进行收集,如今厂商也都有专门研发掩护工具来赞助管理者做这些事情。收集明确这些信息之后,才干对全部存储系统有一个广泛清楚的认知。至少对如今的故障可能产生原因有一个懂得,然后再去到每个组成部分上排查有可能产生的问题。
1、主机层
在主机层面很多检查是操作系统版本,相应的HBA卡是不是达到合适的标准,如速率、IOPS及带宽等。其次是在主机上安装的多路径软件,查看一下与存储设备连接的物理路径的状态以及存储LUN等信息。
2、网络层
网络层次可能产生的问题大多数是连通性问题,因为链路故障导致的丢包或者误码率上升等现象,此现象可以在交换机上视察端口的信息,视察误码率是不是在持续增长,如有,则可能存在链路部件异常或接触不良的现象。其次可能是端口速率或带宽未达到标准,查看端口配置及协商状态,这些都有可能导致故障或者性能问题。
3、存储层
存储设备可以在导出相干告警,事件或者运行数据、系统日志和硬盘日志来进一步分析可能产生故障的原因,到底是存储把持器问题还是底层的硬盘问题都需要一一排查。在底层存储方面重要考虑存储模块的配置,唆使灯状态等信息,从唆使灯状态我们可以分析出是不是存在硬件故障等,其次在配置方面:RAID级别、分条深度、LUN读写策略、cache策略,LUN归属、硬盘类型等是不是符合业务的特点以及不符合时可能导致的问题。都是需要我们在故障排查处理时需要考虑的。
TikTok千粉号购买平台:https://tiktokusername.com/
TOP