如今,云计算和移动互联网的发达,让人们的日常和生活很难离开手机,不管是游戏、社交或者移动办公,手机都扮演着重要的角色。而用来存储数据的IDC机房就是现阶段互联网大数据云计算技术时期的基石,它的安全平稳才算是支撑点起这般海量信息的本质所属。一旦存储发生故障,带来的影响将是很严重的。今天,我们介绍下大数据中心存储系统的故障处理思路。
首先在解决存储系统发生的故障前,需要对全部存储系统的构架及其基本原理有一定的掌握。广泛而言存储系统由网络服务器、交换机及存储设备构成。他们中间是直连或是是IP互联网或FC互联网的方法开展联接。全部系统软件的可靠性跟每一构成都密切相关的。
其次要了解故障的归类,再有序的处理故障。
故障归类大概分成硬件配置故障、配备故障或是license类难题,先外界后內部,先解决高級警示后处理工艺低等警示,先关联性后个性化。
下面我们具体介绍下发生存储系统故障时应该怎样做?
先做好必需的信息搜集,再一一剖析,针对全部存储系统的基础信息,故障信息、存储设备信息及其组网方案、服务器网络服务器信息要有一定的掌握。
搜集清晰这种信息以后,才可以对全部存储系统有一个广泛清楚的认知能力。最少对现如今的故障将会发生缘故有一个掌握,随后再去到每一构成上清查有将会发生的难题。具体到每一层
1、服务器层
1)在服务器方面许多查验是电脑操作系统版本号,相对的HBA卡是不是超过适合的规范,如速度、IOPS及网络带宽等。
2)在主机上下载的多路径手机软件,查询一下与存储设备联接的物理学相对路径的情况及其储存LUN等信息。
2、传输层
1)互联网层级将会发生的难题大部分是连接性难题,由于外链故障造成的网络丢包或是误码率升高等状况,此状况能够在交换机上观查端口号的信息,观查误码率是不是在稳步增长,若有,则将会存有外链构件出现异常或松动的状况。
2)端口号速度或网络带宽未超过规范,查询端口配置及商议情况,这种常有将会造成故障或是特性难题。
3、储存层
1)存储设备能够在导出来有关报警,恶性事件或是运作信息、系统日志和固态盘系统日志来进一步剖析将会发生故障的缘故,究竟是储存控制板难题還是最底层的固态盘难题都一定要一一清查。在最底层储存层面关键考虑到存储模块的配备,显示灯情况等信息,从显示灯情况人们能够剖析出是不是存有硬件配置故障等,
2)在配备层面:RAID级別、分切深层、LUN读写能力对策、cache对策,LUN所属、固态盘种类等是不是合乎业务流程的特性及其不符时将会造成的难题。
以上是存储故障排查的思路,人们在故障清查解决时都是要提前考虑到的。桂哥网络提供海外IDC服务器业务,资源覆盖亚太地区、欧洲、美国等主要国家和地区。公司有十多年运维团队,保障数据线路的安全稳定,欢迎咨询。