拥有三个关键任务网络系统(Facebook、Instagram、WhatsApp)和内部企业网络相互连接以致造成普遍中断的做法有多正常?备份服务器和一次更新一个会发生什么?

他们将这类事件称为 SEV(现场事件)。这被认为是 SEV 0。这是非常罕见的。事实上,我认为 Facebook 上一次出现如此糟糕的情况是在 2015 年。像这样的大规模中断非常罕见。我不明白你最后要问什么,但 Facebook 上什么都没有发生,这不是问题所在。
机器没有关闭或无法做事。如果请求没有进来,那么他们就没有做事。这不像服务器有太多的请求。没有人可以访问它们。
对于所有可以内置的扩展、冗余和组织,没有防弹系统这样的东西,而且 10 月 4 日 Facebook 的中断显然处于影响 DNS 和路由的网络基础设施的低水平,这将不可避免地产生在他们的系统中产生连锁反应。与他们的内部身份验证和授权系统相关的明显故事是该事件的一个具有讽刺意味的方面。
不评论 Facebook、Instagram 和 WhatsApp 的基本理念,除了他们自己之外,任何人都将其归类为“关键任务”?
我不知道,除非是 ISTG 证书都在 9 月 30 日到期,而您使用的是无法自动更新的旧系统?
在这种情况下,你真丢脸,因为我只花了 4 个小时就找出了所有问题的根源,并弄清楚了如何在大多数平台上修复 CERT。
这没有任何源代码或符号表。
我认为您正在对最近 FB 失败的根本原因做出一些假设。假设 FB 和 Instagram 使用基于云的解决方案和非常大的数据中心。数据中心位于欧洲、亚洲、南美和北美。没有证据表明“内部公司网络”对失败负责。考虑这是否是来自俄罗斯黑客的协同网络攻击,令人恐惧。在我看来,故障出在数据中心。