CSI和圣骑士哨兵远程监控将客户端从几乎完全破坏

2013年12月16日,
CSI和圣骑士哨兵远程监控将客户端从几乎完全破坏

og体育app官网我们生活中的那么多事情都要在假期、晚上和周末休息呢?  这些年来,我有太多的管道漏水, 在最糟糕的情况下,热水器会漏水,熔炉会死亡.

og体育app官网也是如此.  我们大多数客户的资源都很有限, 工作人员, 和预算,所以周末通常是“自动驾驶”的——希望没有什么不好的事情发生,希望他们在周一以一种平静的方式走进家门.

然而, 不幸的是,对我们的一个大客户来说,星期六来了,他们的存储区域网络(SAN)发生了非常糟糕的事情。.  该存储设备包含大多数关键文件服务器和数据.  没有它,他们的整个运营就完蛋了——影响了大约12000名用户.  该系统的所有关键部件都有冗余系统,以及额外的备用驱动器, 自动替换故障驱动器,无需用户干预,以保持最大的冗余和性能.  这是世界级的设备.

周六,第一个警报来了.  他们失去了一个驱动器.  它发生.  系统立即抓取一个备用的,并自动修复了它的问题,因为它的设计.  不幸的是,一切都按计划进行.  然后第二个驱动器出现故障.  系统再次自动抓取一个备用的并修复了该问题.  这很不寻常,但是这个系统被设计成可以自动处理这些问题.  然后第三个驱动器死了!  这可能是十年或更久一次的失败事件.  备用零件都没了!   现在是星期天的早晨.  幸运的是,这个系统是用所谓的RAID组设计的.  它现在少了一个驱动器,就不需要完全具备功能了, 但现在它使用基本的X X Y = Z代数来动态地重建丢失的驱动器数据,以保持系统运行,直到获得并手动插入一个真正的驱动器.

那个周日早上,这个至关重要的设备只差一次故障就会彻底崩溃.  严酷的现实逼近,现实的一切,这12,000个用户将会消失.  这意味着执行真正的灾难恢复计划,并可能需要几天的停机时间来重建和恢复一切.  如果还有什么问题, 当用户在没有关键系统的情况下挣扎度日时,组织就会出现混乱.

当屠杀发生时,客户还在沉睡,不知道自己离毁灭有多近.

幸运的是,我们的客户订购了CSI的Paladin Sentinel远程监控服务.  这为他们提供了关键系统24x7x365的监控覆盖范围.  随着这些事件在周末展开,Paladin开始通知我们的og体育app官网人员这些事件.   当我们看到事件持续到周日早上,警报开始响起,我们的og体育app官网人员很快意识到这不是常规故障,这对我们的客户来说是至关重要的.   因为我们有紧急情况, 经过几个小时的支持, 我们给供应商和客户的紧急联系人打了电话.   SAN低于4小时的24x7x365现场服务.  然而, 这是一个非常不寻常的故障,供应商在该地区只有两个可用的替代驱动器在一个周日.   周日下午6点,我们的系统工程师在现场会见了客户和供应商快递员,并交换了两个驱动器.  重建进程自动启动.  六点半,大家都回家了.  根据重建速度,我们估计还需要5个小时才能完全重建冗余.  我们还没有脱离险境.  如果接下来的5个小时发生了什么事,我们的委托人还是会死.   我们的og体育app官网人员继续使用我们的圣骑士哨兵远程监控系统远程监控重建进度直到晚上,直到我们完全确定他们是完全安全的.  然后在周二的例行更换了第三个和最后一个驱动器.

因为客户使用了CSI的《og体育滚球app》来监控可能会造成巨大灾难的事件.  12个,1万名用户在周一以一种平淡无奇的方式进入了网站,他们完全不知道上周末的情况有多糟糕,也不知道他们即将拥有一个非常, 非常糟糕和紧张的一周.

你是否有50个,这就是CSI每天为大大小小的客户所做的..

CSINY_favicon 为了了解更多CSI如何帮助你, og体育滚球app.

 


留下你的评论!

你必须 登录 发表评论.