|
知识路径: > 信息系统运维的组织与管理 > 信息系统运维的组织 > 系统运行的故障管理 > 系统运行的故障管理 > 常见故障的处理 >
|
相关知识点:6个
|
|
|
|
服务器在运行过程中,一些系统部件可能会出现问题,如主板故障、内存校验出错、网卡故障等,这些故障都会导致系统的停机或应用服务的停止。由于服务器对硬件的要求非常严格,短时间内根本无法找到可替换的配件或硬件平台,退一步说,即使能找到同样的硬件平台,实时的业务数据也很难从原来的存储系统中取出,即使利用磁带备份进行恢复,也需要较长的时间。这种突发情况,极有可能会导致企业的核心信息系统中止运作长达几天甚至更长的时间,这对于大部分企业要来说是不可想象的。对于这种情况,通常可以使用如下方法将风险降到最低。
|
|
|
(1)采用全硬件冗余的主机硬件系统。在主机系统中,有完全相同的两套配件,如CPU、主板等,其中任何一套配件都足以满足系统的运行需要。任何一个部件出现问题,丝毫不会影响系统的正常运作。用户也有充足的时间来更换故障配件。
|
|
|
使用这种方案,代价比较高。因为这种主机系统,需要花费双倍硬件的代价得到一台主机的性能。只有在某些较为特殊的应用场合,才需要使用这种方案。
|
|
|
(2)采用多机切换系统。使用多机系统,可以保证多机的应用数据均集中存储于存储子系统中。在任一台主机出现问题时,其他主机都可以将故障主机的应用数据接管过来,并将应用重新启动,在极短时间内恢复信息系统的运行。企业中多采用双机备份系统。双机切换系统的设计主要有以下几种类型。
|
|
|
主机集中存放,双主机连接同一个存储子系统。双主机同存储子系统之间的连接介质可以是SCSI线缆、铜缆或光纤等。数据通道遵循SCSI或Fiber协议标准,连接距离从几米到几十米不等,而光纤介质在无须中继的前提下,可以延伸到几百米,如下图所示。
|
|
|
|
|
一般情况下,两台主机对存储系统的访问在物理上实行隔离,分别访问不同的存储逻辑空间,相互之间并没有并发或争用的情况。而在某些特殊应用中,两台主机需要对同一个逻辑卷进行并发访问,这就需要应用中有专门处理多主机争用访问机制的服务进程。这又分两种情况:双机并发访问同一逻辑卷和双机独立访问不同逻辑卷。对于前者,在主机A出现故障时,主机B则可以接管全部数据的控制权及主机A的网络资源,无须任何手工干预;对于后者,主机B一旦检测到主机A出现故障,便会先发出要求,主机A中的处理进程将会尽力释放对逻辑卷的控制,而后主机B则会接管主机A释放的逻辑卷。在逻辑卷切换成功后,主机B将会按照既定设置,接管主机A的网络资源,如IP地址、网络名称等,随后主机B再将应用服务重新启动。其所需的切换时间,约十几秒时间,不同的产品略微有些差别。
|
|
|
双主机对彼此工作状态的检测是通过它们之间的心跳检测线(如直连网线、RS232线缆等)及其各自服务进程之间的通信进行的。这种切换方式,需要有应用软件的支持,如Oracle数据库或者专用的双机切换软件(如HA、MC等)。
|
|
|
主机异地存放,双主机分别连接一个存储子系统。由于主机异地存放,使用SCSI线缆及铜缆等介质均无法满足距离要求,必须采用光纤或网线连接。这种机制,不仅可以消除服务器故障所带来的风险,还可以抵御因地震、火灾等意外灾难事故所带来的风险,但造价很高,一般在大型企业内采用。
|
|
|
其他灵活的设计方案。因为对任何两台独立的服务器,无论其是否配备了单独的存储子系统,企业都可以运用软件的方式获得数据同步的效果,所以从各企业自身的实际情况出发,还可以定义出其他更为灵活的方式,如充分发挥其应用系统自身的复制功能,在两套相互独立的应用系统之间进行间隔同步。自定义开发定时导入导出程序,同步间隔时间的长短,视服务器资源配置而有所不同。这种方式对两台服务器的资源性能、网络带宽等都有一定的影响,其稳定性也有一定局限。在实施之前,应当进行客观评估,以避免出现资源瓶颈现象。企业可以根据自己的实际情况和资金计划,选择对自己最为合适的方案。
|
|
|