史上最霸氣測試!支付寶模擬自斷一半服務(wù)器:26秒一切恢復(fù)正常
掃描二維碼
隨時(shí)隨地手機(jī)看文章
互聯(lián)網(wǎng)時(shí)代,服務(wù)器機(jī)房可謂心臟,大型機(jī)房出故障是小概率事件。但即便如此,還是可能出現(xiàn)自然災(zāi)害、斷電、光纜被挖斷等黑天鵝事件。如果沒有完善的容災(zāi)系統(tǒng),不能及時(shí)恢復(fù),就會(huì)出現(xiàn)用戶信息丟失、資金損失的情況,后果不堪設(shè)想。
9月20日,杭州云棲大會(huì)ATEC主論壇現(xiàn)場上演了一場特別的技術(shù)秀。螞蟻金服副CTO胡喜現(xiàn)場模擬挖斷支付寶近一半服務(wù)器的光纜。結(jié)果只過了26秒,模擬環(huán)境中的支付寶就完全恢復(fù)了正常。
這是由支付寶工程師策劃的一次特別技術(shù)演練,他們基于支付寶的真實(shí)機(jī)房,在兩個(gè)城市各單獨(dú)搭建了兩個(gè)模擬機(jī)房,以測試當(dāng)兩個(gè)機(jī)房同時(shí)下線后的系統(tǒng)穩(wěn)定性。
螞蟻金服副CTO胡喜解釋,這次是演習(xí)。而在真實(shí)環(huán)境下,如果支付寶部署在兩個(gè)城市的兩個(gè)機(jī)房同時(shí)出問題,跑在這兩個(gè)機(jī)房上的支付寶賬戶恢復(fù)正常的速度是分鐘級(jí)。
據(jù)了解,這一機(jī)房架構(gòu)叫“三地五中心”,即在三座城市部署五個(gè)機(jī)房,一旦其中一個(gè)或兩個(gè)機(jī)房發(fā)生故障,支付寶的底層技術(shù)系統(tǒng)會(huì)將故障城市的流量全部切換到運(yùn)行正常的機(jī)房,并且能做到數(shù)據(jù)保持一致且零丟失。
目前互聯(lián)網(wǎng)和金融科技行業(yè)普遍采用的是“兩地三中心”部署架構(gòu),即在一個(gè)城市設(shè)兩個(gè)機(jī)房,在另一個(gè)城市設(shè)一個(gè)冷備機(jī)房。
胡喜強(qiáng)調(diào),這個(gè)架構(gòu),絕不僅僅是多設(shè)立了兩個(gè)機(jī)房那么簡單,它非常考驗(yàn)一家公司分布式架構(gòu)、數(shù)據(jù)庫、中間件及相關(guān)金融核心技術(shù)的能力。而這正是支付寶創(chuàng)立前十年修煉技術(shù)內(nèi)功的結(jié)果?!爸Ц秾毜募夹g(shù)目標(biāo)之一就是保證金融級(jí)別的系統(tǒng)穩(wěn)定和安全能力?!?/p>
曾有行業(yè)人士做過概率計(jì)算,兩個(gè)城市多個(gè)機(jī)房同時(shí)故障的概率極低,基本不會(huì)發(fā)生。而即便發(fā)生了,現(xiàn)場的演習(xí)也展示出支付寶強(qiáng)大的容災(zāi)能力。
胡喜在現(xiàn)場和大家開起了玩笑:“這次演練,告訴了大家一個(gè)好消息,一個(gè)壞消息。好消息是,支付寶很安全,很穩(wěn)定,至少要陪大家再過102年,壞消息是,不管剪多少光纜,花唄還是要還的?!?/p>





