支付宝模拟自断一半服务器:26秒一切恢复正常

在Internet时代,服务器机房可以说是一颗心脏,而大型计算机机房的故障则很少发生。即使这样,也可能会发生黑天鹅事件,例如自然灾害,停电和电缆切断。如果没有完善的灾难恢复系统并且无法及时恢复,将会丢失用户信息和资金,后果不堪设想。

9月20日,在杭州云起会议的ATEC主论坛上举行了一次特别的技术展览。蚂蚁金服副首席技术官胡曦现场模拟砸碎了支付宝近一半服务器的电缆。结果只有26秒,并且模拟环境中的支付宝已完全恢复。

这是支付宝工程师计划的一项特殊技术练习。他们基于支付宝的真实计算机室,在两个城市中的每个城市建立了两个模拟室,以在两个房间下线时测试系统的稳定性。

蚂蚁金服副首席技术官胡曦解释说,这是一种练习。在实际环境中,如果支付宝同时在两个城市的两个计算机房中部署问题,则在这两个计算机房中运行的支付宝帐户将在分钟级别恢复正常速度。

据了解,这种机房结构被称为“三地五中心”,即在三个城市部署了五个机房。一旦一两个机房发生故障,支付宝的基础技术系统就会将故障城市的所有流量切换为正常运行。普通机房,并可以实现一致的数据和零丢失。

目前,互联网和金融技术行业普遍采用“两站点三中心”的部署结构,即一个城市安装了两台计算机机房,另一个城市安装了一个冷备机房。

胡曦强调,这种架构不仅简单地设置了两个计算机房,而且还测试了公司的分布式架构,数据库,中间件和相关的财务核心技术。这是支付宝成立前十年的种植技术技能的结果。 “支付宝的技术目标之一是确保财务级别的系统稳定性和安全性。”

行业中有些人已经进行了概率计算。两个城市中多个计算机机房同时发生故障的可能性极低,而且不会发生。即使发生这种情况,现场演习也显示了支付宝的强大抗灾能力。

胡希在现场与每个人开了个玩笑:“这次演习告诉了每个人一个好消息,一个坏消息。好消息是支付宝非常安全和稳定,至少可以和您在一起102年。这个坏消息不管剪了多少根电缆,花蕾仍然必须归还。”

——