众所周知,但凡遇到一些重大节日和活动,大型的数据中心都会进行封网,停止一切操作和活动行为,目的就是为了减少故障发生,将人为操作风险降低,将触发BUG的风险降低。这种方式行之有效,除了可能出现一些硬件故障外,几乎很少发生其它类问题。
数据中心里需要的技术知识太多,涵盖多个学科几十个门类,没有谁能全部掌握,完全掌握一门都很难,这时制定相应的操作,受限知识面,总会有考虑不周的地方,一旦有漏掉就可能在操作过程中产生问题。对于变更操作,任何人都没有绝对的把握,凡事都可能有意外,就像是做手术,再小的手术也是有风险的,也要家属签字,万一出了事故手术操作者能免责。
第三是管事。当数据中心需要变更和优化操作时,需要运维团队的人员进行整体讨论,对预知的风险进行分析,确保操作不会对运行业务造成影响。每个变更都是整个技术团队的讨论通过做出的决定,而不是个人的行为,这样能将技术性人为故障降到最低。要制定好回退方案,一旦出现异常情况立即回退,事后将原因分析情况后再进行二次变更。毕竟运维的人员都不是专业搞设备的,对设备内部处理和实现并不见得很清楚,重大的变更操作可以邀请设备厂家的技术人员参与和支持,降低操作错误的风险。每次操作都要做好充分准备,必要的模拟演练、提前的业务搬移、紧急通道的准备等都需要,这样才能降低故障发生的风险。
2020-10-19 16:54:54
网络安全等级保护2.0标准解读...
2020-09-22 16:28:57
中方提出《全球数据安全倡议》...
2020-09-22 16:28:02
90亿信用卡曝出协议漏洞:黑客无需密...
2020-09-22 16:27:37
公安部和中国科学院联合成立网络空...
2020-09-22 16:23:30
公安部马力:网络安全等级保护2.0标...
2020-09-22 16:22:10
陕西省等保办组织召开测评机构2020...
2020-09-22 15:45:59
公安部张宇翔:须知等保2.0主要标准...
2019-12-02 08:36:00
2019年12月1日等保2.0正式到来...
2019-11-28 08:55:51
2019第27批牌照下发
2019-11-25 10:16:10
2019第26批牌照下发
2019-11-19 11:58:19
漫谈数据中心的演变和发展...
2019-11-18 09:05:48
云计算的“矛与盾”
2019-11-15 12:02:03
网络安全市场——未来可期...
2019-11-14 13:50:37
国家计算机病毒应急处理中心监测发...
2019-11-13 15:23:01
2019第25批牌照下发