那些年，云厂商宕机教会我们的事

发布时间：2018-07-03 05:04:11 所属栏目：云计算来源：InfoQ

导读：副标题#e# 北京时间 6 月 27 日下午，阿里云挂了。市场占有率 47.6% 的阿里云宕机，影响的是中国互联网的半壁江山。对此，坊间传闻伴着吐槽声起伏不断，甚至有人声称此次事故是由两个实习生造成。事件发生后，阿里云在迅速人肉修复故障后，发表说明：对于

陈皓重申了其观点：一个系统的高可用的因素很多，不仅仅只是系统架构，更重要的是——高可用运维。并且，他认为对于高可用的运维，平时的故障演习是很重要的。AWS 平时应该没有相应的故障演习，所以导致要么长期不出故障，一出就出个大的让你措手不及。

比如，Facebook每个季度扔个骰子，随机关掉一个IDC一天。Netflix 有 Chaos Monkey，路透每年也会做一次大规模的故障演练——灾难演习。

在陈天看来，这种容错的操练适合大一些且工程团队有余力的公司。为什么Netflix 重度使用 AWS，却在历次 AWS 的宕机中毫发无损？其实Netflix之前也深深地被云的「不稳定性」刺痛过，而如今他们的 Chaos Monkey（之后发展为 simian army）服务，会随时随地模拟各种宕机情况，扰乱生产环境。比如说对于此次事件的演练，可以配置 simian army 去扰乱 S3：simianarmy.chaos.fails3.enabled = true.

这样，这群讨厌的猴子就会在不知情的情况下随机把服务器的 /etc/hosts 改掉，让所有的 S3 API 不可用。如此就可以体验平时很难遇到的 S3 不可访问的场景，进而找到相应的对策（注意：请在 staging 环境下谨慎尝试）。

5、处理危机的方式能看出一个公司的高度

陈皓表示非常喜欢GitLab、AWS这样向大众公开其故障及处理流程，哪怕起因是一个低级的人为错误，也不会掩盖、不会文过饰非。

如果你是一个技术公司，你就会更多的相信技术而不是管理。相信技术会用技术来解决问题，相信管理，那就只会有制度、流程和价值观来解决问题。没有人愿意看到问题的发生；但是问题出现后，最重要的解决反思并从中汲取教训：这难道不是技术人应有的傲骨吗？

你觉得呢？

（编辑：PHP编程网 - 黄冈站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页

PaaS市场高速增长如何	一文搞懂基础设施即代
云计算核心技术Docker	云计算核心技术Docker