问题:周末凌晨系统进行定时全备,由于数据库已经超过13TB,因此0点开始的全备到第二天8点业务高峰开始的时候并未完成。于是备份与业务共同作用下导致了IO瓶颈的出现,最终导致了系统故障的悲剧。如果运维团队能够第一时间发现该问题,暂停RMAN备份(临时挂起),就可以很快解决该问题,恢复系统运行。而由于现场运维团队往往缺失整体分析的能力,对OS方面也不是很熟,所以很容易忽视这方面的问题,而很快从MOS上找到十分贴切的案例,根据这个案例的误导,最终导致悲剧
发表评论
点击:870