【OVH雲端機房失火,導致全球360萬個網站停擺】深度剖析歐洲史上最嚴重機房火災

雲端服務供應商OVH一座百坪資料中心發生火災而全毀,火勢也造成OVH鄰近一座資料中心部分機房損毀,另外兩座被迫關閉。從現代資料中心防火設計來看,機房隔間牆與管道間設計上,通常要能達到一段時間的防火時效,為何這次災情那麼慘重?

背景圖片來源/法國消防局SDIS

歐洲最大規模的雲端服務供應商OVHcloud(以下簡稱OVH),突然在當地時間3月10日凌晨爆發史上最嚴重的火災,燒毀位於法國史特拉斯堡的一座5層樓高的百坪資料中心,驚人火勢甚至一度向外蔓延,造成鄰近同公司另一座資料中心部分機房損毀,還有另外兩座被迫關閉。火勢直到早上才控制住,所幸沒有人員傷亡。

突如其來的暗夜大火,不只影響許多歐洲本地企業、政府單位服務運作,一項OVH資料中心服務監測數據更顯示,全球有半數OVH代管網站,高達360萬個網站因而停擺,許多線上遊戲平臺、銀行、電商及新聞網站大受影響,甚至因為這場大火,一些企業營運重要資料因此永久遺失。

這起機房大火事故帶來的衝擊,更讓OVH近期的IPO計畫大受影響,連該公司創辦人Octave Klaba都沉痛說出:「這是該公司成立22年以來最慘的一天」。

更慘的是,資料中心災後復原之路漫長,根據OVH預估,至少需經過兩周才能開始重啟資料中心伺服器,逐步恢復服務,這段期間,原服務僅能改由OVH在該地區以外其他資料中心接手。

這次機房火災事件,不只是OVH成立有史以來最嚴重機房火災事故,甚至是歐洲史上最大規模機房火災重大事故。

為了對抗亞馬遜、微軟等全球雲端巨頭,身為歐洲最大、全球第3大代管服務商,OVH近幾年積極擴大雲端布局,像是2017年大舉收購VMware的公有雲業務,搶攻公有雲市場,目前該公司旗下主要雲端服務項目,除了公有雲,服務更涵蓋了裸機雲、Web雲,代管私有雲。為了擴大雲端運算與代管服務範圍,OVH這些年持續在全球擴建資料中心據點,截至2020年底,該公司在全球4大洲擁有31座資料中心,一共部署多達40萬臺伺服器,服務全球160萬名客戶。

在OVH資料中心發生火災之後,根據英國網路安全業者Netcraft的偵測, 自3月10日凌晨2點13分起(中歐時間),OVH史特拉斯堡資料中心的伺服器對外服務全部已中斷,完全連不到。圖片來源/Netcraft

火燒機房,OVH面臨成立22年來最大一次服務中斷

這次發生重大火災事故的,是OVH位在法國的史特拉斯堡一座資料中心。該公司在法國設有17座資料中心據點,史特拉斯堡就占了其中4座(代號SBG1、SBG2 、SBG3、SBG4),其餘資料中心則分布在巴黎、魯貝,以及華沙與法蘭克福等城市。

OVH上一次服務中斷事故是在2017年,同樣是發生在史特拉斯堡,當時因電力系統異常,造成該區資料中心設備停機,導致服務中斷持續了一整天。後來分析事故原因有兩個,一是OVH新設資料中心時,為加快速部署,並未與其他資料中心採用相同兩條獨立20kV高壓饋線當作備援設計,導致其中一條電力線路出問題,無法切換到備援線路,二來,在架設電網時,採用兩座資料中心共用同一電網線路架構的作法,也與OVH其他資料中心架設方式有所不同。

經過這起服務中斷事故,也促使OVH後來重新改造電力系統,除了新增一套容量可達20MVA的獨立電力配置當作備援,並且不再共用同一個電網線路,而讓資料中心的電網能夠彼此各自獨立。OVH當時更計畫將這4座資料中心彼此隔開,還要將其中SBG1與SBG4機房服務全部遷移到SBG3,不再繼續使用。

過去,這起服務中斷事故,是因為電力問題才出現狀況,然而,後來一場資料中心大火,竟造成了OVH有史以來最大一次服務中斷事故,至截稿前,持續長達一周時間仍未能恢復服務。這場大火得從3月10日這一天凌晨,開始說起。

火苗是從史特拉斯堡當地一座5層樓高的SBG2資料中心樓上一間機房竄出,機房維運人員收到火警通報立即趕往現場,後來發現現場火勢已無法控制,於是先緊急疏散內部人員。緊接著,警消獲報抵達現場,立即以萊因河的水架設水線進行灌救。在大規模投入現場救災同時,警消同步封鎖該基地及其周邊四周出入,並緊急向電力公司要求對該區域進行斷電處置。

由於現場火勢持續燃燒,猛烈火勢後來更從SBG2向隔壁緊鄰的其餘三座資料中心SBG1、SBG3、SBG4蔓延開來。經過徹夜搶救,直到早上5點左右,大火持續悶燒約5小時後,火勢開始獲得控制。

初步調查,因為這場大火,OVH一座資料中心全毀更波及其餘3座,燒毀的是SBG2資料中心,雖然它的建築面積不大,只有約百坪規模,但其採用高密度機房設計,最多能容納約1萬2千臺伺服器,後來在這場大火中,SBG2機房裡的伺服器幾乎遭摧毀而無法使用,甚至連該公司架設於SBG2機房的郵件伺服器都未能倖免。SBG1資料中心雖然沒有SBG2損壞嚴重,但其機房一部分亦受到大火波及,12間機房有4間遭毀,SBG3與SBG4設備未受損,但也受牽連而被迫關閉。所幸經查沒人傷亡。

一夜之間,全球360萬個網站全面停擺

受到這起重大火災事件的衝擊,OVH大動作關閉史特拉斯堡4座資料中心,也使得歐洲許多用戶服務大受影響,不少用戶在OVH資料中心發生火災第一時間紛紛上網抱怨自己放在該公司雲端的主機或網站服務突然無法登入,甚至一些重要資料因此拿不回來,例如一家遊戲開發商Facepunch,在這場大火中,所有通過OVH在其雲端伺服器上保存的線上遊戲資料,如玩家存檔等,都因此付之一炬,無法復原。

一夜之間,更有大量歐洲網站服務因此癱瘓,例如,法國著名藝術文化中心龐畢度中心、加密貨幣交易所Deribit、歐洲最大電子工程雜誌EENews Europe,以及如data.gouv.fr政府網站等。

根據英國網路安全業者Netcraft的監測數據顯示,OVH資料中心發生大火的早上,全球有超過18%屬於OVH的IP位址沒有回應,約有360萬個網站停擺。其中有88萬個網站的頂級網域名稱為.com,18.4萬個為.fr,還有2.4萬個為.uk,若以網站服務類型來看,涵蓋了網路銀行、電子郵件服務、新聞網站、電子商務網站,還有政府機構網站。

事隔11小時之後,OVH發布第一次公告,首度說明這次機房失火事件,並展開後續服務影響的評估。同日更二度公告,除了更新災後各資料中心受損情況,也提出3項優先目標,包括優先在Roubaix與Gravelines兩地資料中心架設新伺服器,以供受波及的用戶使用,後來更新增三地,未來幾周還要投入生產超過1.5萬臺的新伺服器。其次,也將努力恢復SBG1、SBG3與SBG4的運作,以及持續清查盤點這場大火對於資料中心客戶伺服器的影響程度及其範圍,以便找到最佳解決方案。

OVH也首次公開提到災後對於該公司營運的衝擊。目前在法國資料中心以及歐洲15座資料中心在內服務均已全面恢復運作,另外,基於Web提供的VOIP服務在法國當地亦沒有受到影響。事件發生後的40小時左右,OVH開始向所有直接受影響的用戶發送電子郵件說明其服務狀態,並提供FAQ問答。更早之前,OVH還設置一個事件公告網站,供用戶後續進度追蹤。

火災發生後的隔日,Octave Klaba在個人推特上發布一段8分鐘影片,首次公布推測可能的失火原因。他表示,根據當地消防單位提供的資訊,初步推測導火線很可能是SBG2機房裡的兩臺UPS不斷電設備失火所造成,但詳細起火的原因仍待查。他在影片中也向客戶表達深切歉意,並承諾將盡快將災後剩餘3座資料中心重啟,恢復服務。

雖然詳細事故的原因,相關單位已展開調查,但從現代資料中心防火設計來看,機房隔間牆與管道間設計上,通常要能達到一段時間的防火時效,為何這次災情那麼慘重?

單從這4座資料中心外觀來看,SBG1和4屬於貨櫃型資料中心,後來啟用的SBG 2、3則是採用OVH稱之為塔型(Tower)的資料中心設計。台灣世曦資訊系統部副理張智欽就表示,這些資料中心都是屬於簡易型建築物設計,目的是加快部署,因而採取較簡易、低成本的建置方法,一般而言,這種非傳統標準的資料中心或機房設計,較難以落實火災防火機制,他認為,這是造成OVH資料中心火災一發不可收拾的主因。

他也提到,以這種規模的資料中心而言,在大火發生之後,OVH緊急應變速度已經相當快,甚至火災撲滅沒多久,現場一部分網路作業已經開始恢復,加上所有伺服器都是自己設計生產,有足夠資源做調度,也讓它復原速度加快。另外,對於後續災情與處理進度公開也相當透明。

從這次OVH機房火災事件,更加凸顯出企業在雲端服務採用不同區域互作備援的重要性,張智欽就認為,當不能有服務中斷的情況,企業比較好的方式就是在不同區域互作備援,而不是將服務放在同一個區域不同資料中心,就像這次的情況,SBG2機房失火,隔壁SBG3、SBG4即使沒有遭受波及,還是可能因為網路、電力中斷而停擺,光是恢復就得花不少時間。

OVH在第四次公告也提出更具體的短期3個工作重點,第一優先完成網路與電力供給,以恢復SBG1、SBG3和SBG4服務運作;第二則要提供可替代的資料中心基礎架構服務方案供受影響的用戶使用,以及第三則是與客戶共同落實DRP(災難恢復計劃)機制執行。並提到這段期間受影響的客戶,將暫不收費。

舉例來說,在機房災後復原方面, OVH不僅成立臨時辦公室,還投入上百名人力,早一步展開災後復原工作,並優先重建網路及電力基礎架構。像在網路部分,OVH技術團隊針對已受損的資料中心骨幹網路進行搶修,對內也重新部署光纖能夠與機房內部相連,甚至建置新的網路機房以恢復內部網路。

另在電力基礎架構部分,OVH也陸續在3座資料中心重新架設20KV高壓電纜線路,以及完成低壓240V配置,來替資料中心穩定供電。

經過連日搶修,到災後第6天,OVH在這3座資料中心已完成復電與內外網路基礎設施部署,OVH表示,預計將等到22日重啟機房伺服器,確認能穩定運作後,才會逐步恢復原有服務。

3月10日

凌晨00:47(中歐時間)

OVH在法國史特拉斯堡的基地設有4座資料中心(代號SBG1、SBG2 、SBG3、SBG4),火苗是從一座5層樓高的SBG2資料中心樓上一間機房竄出,後來現場火勢無法控制,內部人員緊急撤離。警消獲報抵達現場,並架設水線進行灌救。圖片來源/OVHcloud

凌晨2:54 消防車持續灌救

在投入現場救災同時,警消同步封鎖該基地及其周邊四周出入,並要求電力公司先行對該區域進行斷電。 圖片來源/法國消防局SDIS

4:09 火勢開始蔓延

火勢開始蔓延到其他資料中心。由於火勢持續燃燒,整棟SBG2已被火燄和濃煙籠罩,數十米高火焰,更向緊鄰SBG1、SBG3、SBG4三座資料中心蔓延開來

5:30 現場火勢得到控制

大火持續悶燒約5小時,火勢開始獲得控制。但SBG2整棟幾乎完全毀損,亦損壞了SBG1資料中心一部分(12間機房中的4間遭毀),SBG3與SBG4雖然沒有遭到大火波及,但也受牽連而關閉全部伺服器。所幸經查沒人傷亡,但基於安全考量這段期間仍禁止人員進入。圖片來源/Google地圖

11:00 OVH首度公開說明

OVH創辦人Octave Klaba

第一次公告,OVH首度在官網公開說明這起SBG2機房失火事件,並展開後續服務影響的評估

21:00 二度公告,說明營運的衝擊

同日二度公告,除了更新SBG各資料中心受損情況,也提出3項優先目標,包括災後復原工作等,更首次公開提到災後對於該公司營運的衝擊

3月11日

15:30 向受影響客戶發送郵件

事件發生後的40小時,OVH開始向所有直接受火災影響的用戶發送電子郵件說明其服務狀態。並提供FAQ問答

16:40 可能失火原因曝光

首次公布推測可能的失火原因。火災發生後事隔一天,OVH創辦人Octave Klaba在個人推特上發布一段8分鐘影片,透露根據當地消防單位提供的資訊,初步推測導火線很可能是SBG2機房裡的兩臺UPS設備失火所造成,但詳細起火的原因仍待查。圖片來源/法國消防局SDIS

3月12日

14:00 災後短期3個工作重點

第四次公告,OVH提出災後短期3個工作重點,包括1、優先完成網路與電力供給,以恢復SBG1、SBG3和SBG4服務運作;2、提供可替代的資料中心基礎架構服務方案供受影響的用戶使用,以及3、與客戶共同執行DRP(災難恢復計劃)機制

3月16日

經過連日搶修後,SBG1、SBG3和SBG4機房所有服務仍停擺,僅先完成復電與內外網路基礎設施重新部署,預計接下來一周內重啟伺服器,確認能穩定運作後,才會逐步恢復原有服務。圖片來源/OVHcloud

資料來源:iThome

向上滑動