華為數(shù)字能源中國區(qū)產(chǎn)品總監(jiān) 杜坤:AI的業(yè)務(wù)模式是變化的,與傳統(tǒng)數(shù)據(jù)中心的建設(shè)不一樣,單機(jī)柜功率密度提升,服務(wù)器在時刻變化,半年以后可能摩爾定律會極其迅速地帶來一個產(chǎn)品的迭代和更多的變化。
我們?nèi)绾卧谶@種變化的環(huán)境下去適配,或者響應(yīng)業(yè)務(wù)快速建設(shè)的特征,來靈活應(yīng)對一個多元算力。未來數(shù)據(jù)中心的建設(shè)一定包含AI、包含通算、包含存儲一系列綜合業(yè)務(wù)的集合。產(chǎn)品的模塊化從供電設(shè)施到智能設(shè)施基礎(chǔ)的模塊化的搭建,一個最小的單元化積木式的快速響應(yīng)是必需的?;诂F(xiàn)在制冷形式的不確定,我們可能要在機(jī)房空間內(nèi)實(shí)現(xiàn)液冷和風(fēng)冷兼容的設(shè)計。對于我們來說,在沒有決定服務(wù)器具體用哪種模式,業(yè)務(wù)承載以什么形式去做的時候,我們可能會用一定空間上的犧牲,來滿足方案的靈活性。
如果按照端到端的概念去做一個數(shù)據(jù)中心基礎(chǔ)設(shè)施的建設(shè),我們從最開始資源的獲取,現(xiàn)在AI對電力的消耗可能是通算消耗的5~10倍甚至更多,我們?nèi)绾稳ツ玫礁嗫焖俚哪茉u、更多的土地和更多其他的資源,這部分是我們在前置規(guī)劃建設(shè)時就需要考慮的問題。
在我們拿到相關(guān)設(shè)備的基礎(chǔ)條件以及整體項(xiàng)目的報批報建完成之后,如何快速協(xié)同去做交付?全部完成只是做到了能源的底層,到第三層我們才會做到機(jī)柜交付和業(yè)務(wù)部署的上線。目前從整體策略來看我們還是建議在業(yè)務(wù)部署前期應(yīng)該有一個清晰的規(guī)劃,有彈性的方案架構(gòu)的匹配,以及在業(yè)務(wù)部署的中后期,我們能夠?qū)崿F(xiàn)業(yè)務(wù)整柜的快速交付以及業(yè)務(wù)的快速調(diào)試和上線,這部分都需要根據(jù)現(xiàn)有的經(jīng)驗(yàn)做合理的預(yù)估,控制相關(guān)的投資風(fēng)險。因?yàn)锳I現(xiàn)在投資的風(fēng)險相對通算來說會更加龐大。
應(yīng)對快速建設(shè),我們通過標(biāo)準(zhǔn)化的架構(gòu),模塊化的設(shè)備,基線化的協(xié)同,這是我們目前交付的為數(shù)不多的幾十個項(xiàng)目中積累的一些經(jīng)驗(yàn)。比如最開始我們要做到業(yè)主側(cè)的聯(lián)合規(guī)劃設(shè)計落地,并且在后期基于L1和L2層相關(guān)的協(xié)同的交付實(shí)施,作出明確的方案?;诤笃诘倪\(yùn)維,我們要綜合評估包括業(yè)主的能力以及相關(guān)運(yùn)營公司的能力,最終在運(yùn)營上做一定的協(xié)同優(yōu)化,這是我們四大階段要做的事情,具體細(xì)化上還有更多方式去解決。
對于我們來說,設(shè)備安裝層面也是基于這四大設(shè)施情況下做一個全流程的協(xié)同,能做到高質(zhì)量完全的交付。在我們的TTM(即時通訊軟件)上,通過有效的工具,我們能夠節(jié)省30%以上的上線時間,以解決現(xiàn)有業(yè)務(wù)爆發(fā)和相關(guān)業(yè)務(wù)快速部署的要求。
目前AI的電力消耗是巨大的,所以對我們來說,有可能出現(xiàn)一個問題,原來輔助的配電用房的占地面積只有10%~15%,但是隨著單機(jī)柜功率密度顯著提高甚至部分液冷設(shè)備上線,輔助空間設(shè)施將極致壓縮。這時集成化、高密化的方案也逐步成為主流。在主業(yè)務(wù)還沒有明確之前,相對穩(wěn)定的市電申請下來之后就開始提前部署,甚至提前做電力模塊交付的相關(guān)產(chǎn)品的采購和整個設(shè)備的部署。這樣有兩大好處,第一個是通過智能化的管理,能夠?qū)┡潆姷目煽啃宰龅綐O大提升。第二個是由于高密化部署的產(chǎn)品特點(diǎn),能夠讓可部署機(jī)柜的出柜率得到顯著提升。
供電架構(gòu)的基礎(chǔ)設(shè)施,也是業(yè)界很多先行者會考慮的事情。既然AI這么耗電,我為什么還要做2N的架構(gòu)(一種數(shù)據(jù)中心供配電系統(tǒng)架構(gòu)),能不能做兩路市電,來避免甚至減緩這個特征帶來的影響。這里就有一個很明確的觀點(diǎn),第一,我們要考慮基于現(xiàn)在最新的AI服務(wù)器的定價,如果按照訓(xùn)練服務(wù)器定價,8點(diǎn)節(jié)2.5P的算力服務(wù)器采購金額在150萬甚至250萬之間,相對于通算服務(wù)器,這是一個非常大的投資。L1這部分的占比,相對于總投資來說有一個下降。第二個要素,對服務(wù)器來說,所有的設(shè)備我們?nèi)绾稳ビ绊懰目煽啃?,由于高溫,由于供電不穩(wěn)定,由于一系列其他的故障所帶來的問題,因?yàn)楝F(xiàn)在的服務(wù)器很貴,服務(wù)器是一個很金貴的設(shè)備,所以對于我們來說傳統(tǒng)的2N架構(gòu),供電質(zhì)量的可靠性以及相關(guān)特性的保障也變得更加重要。
后續(xù)的供電是長時間的并行計算,出現(xiàn)了市電中斷的閃斷可能沒有數(shù)據(jù)丟失的風(fēng)險,但是對于算力或者電力的消耗指標(biāo)也是相當(dāng)恐怖的,所以對于我們來說,一旦能夠有效地保證能源供應(yīng),避免因?yàn)殡娏Φ闹袛鄮淼姆?wù)器的并行重新計算,對我們來說在能源包括成本上的控制也是相對有效的措施。所以2N架構(gòu)的UPS(不間斷電源)的供配電方案,我們后續(xù)依然認(rèn)為是AI供配電主流的配置。
負(fù)載的突增突減,基于算力的業(yè)務(wù)來說無法避免,而且負(fù)載的長期大算力不并行計算也是特點(diǎn),架構(gòu)上我們必須要關(guān)注一點(diǎn),就是高壓直流也好,UPS也好,具備短時間的過載特性,以滿足現(xiàn)有的業(yè)務(wù)特征?,F(xiàn)在有一個行之有效的辦法,比如在市電容量一定的情況,作為數(shù)據(jù)中心,有一部分儲能設(shè)備會用來作為數(shù)據(jù)中心能源供給的后備,在市電容量已經(jīng)滿負(fù)荷的情況下,可以通過儲能聯(lián)合供電來解決一部分負(fù)載突增突減的問題。如果采用常規(guī)的鉛酸電池,由于它的放電次數(shù)和放電倍率的問題,無法做到有效的、長期的能源突增突減后備軍的力量,所以鋰電后續(xù)的常規(guī)化應(yīng)用,后期是動力電池甚至中壓側(cè)儲能電池的應(yīng)用,也將逐步成為數(shù)據(jù)中心更換的主流,以解決我們提到的負(fù)載突增突減變化的特點(diǎn)。
冷卻。AI最大的特點(diǎn)就是在冷卻部分到底是風(fēng)冷還是液冷。到目前為止,風(fēng)冷的服務(wù)器依然是業(yè)界發(fā)貨的主流,液冷服務(wù)器有各種各樣的模式。所有服務(wù)器的廠商現(xiàn)在基于AI的場景都在不停地推出風(fēng)冷和液冷兼具的服務(wù)器的解決方案,我們目前明確在單機(jī)柜40千瓦左右,40千瓦以上我們推薦用液冷或者風(fēng)液融合的方案,40千瓦以下傳統(tǒng)的風(fēng)冷場景依然還是能夠解決現(xiàn)在建設(shè)的訴求。
液冷和風(fēng)冷這兩個方案,未來誰都不會有絕對化的優(yōu)勢做完全的取代。風(fēng)冷相對PUE(電源使用效率)或者整體的占地面積會有一定的提升,液冷的PUE會比風(fēng)冷至少高0.1甚至0.15以上,相應(yīng)的出柜率及其功率密度能夠得到有效的提升,但從整體成本以及后期維護(hù)的簡易度來看,它有一定的劣勢。未來隨著液冷服務(wù)器批量開放使用,以及由于發(fā)貨量帶來的成本下降,液冷后續(xù)將逐步在整體的服務(wù)器占比中有一定量的提升,后續(xù)有可能做到1:1甚至更高的比例。
有一點(diǎn)必須要明確,未來液冷將占一定的比例,但目前我們做整個數(shù)據(jù)中心的部署,對我們的要求就是要做到可以風(fēng)也可以液,風(fēng)液可調(diào),風(fēng)液融合,以適配更多的場景。
冷卻問題,在我們的訓(xùn)練模型做了一定沉淀之后,模型最終的可用性、成熟度達(dá)到上線,大家會聚焦到推理模式,冷電融合以及連續(xù)制冷的需求是未來的剛需。按照我們自己的測試來看,一個3千瓦的機(jī)柜如果出現(xiàn)溫度到40度的情況下只需要8分鐘,后續(xù)20千瓦到40千瓦非連續(xù)制冷模式,可能1分鐘之內(nèi)機(jī)柜就會因?yàn)檫^熱帶來業(yè)務(wù)宕機(jī)。無論是以后AI層面的大中型數(shù)據(jù)中心還是中小型數(shù)據(jù)中心,連續(xù)制冷都是未來的剛需。目前來看在通算這個領(lǐng)域,單機(jī)柜功率密度沒有提升,客戶訴求和痛點(diǎn)并不明顯。華為公司在相應(yīng)的架構(gòu)上也做了一定的優(yōu)化,以保證這個功能的提升。
基于我們目前AI的模式,在訓(xùn)練模式、百柜千柜的大型IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)的情況下,我們有融合化的解決方案,有電力模塊,有間接蒸發(fā)冷卻系統(tǒng),大型設(shè)備還是以部件為主,在中小型的模型場景,有預(yù)制模塊化和微模塊的解決方案,以適配業(yè)務(wù)的快速部署和快速上線。未來基于AI層面相關(guān)的應(yīng)用以及AI層面相關(guān)的業(yè)務(wù),華為公司將持續(xù)關(guān)注,與我們客戶、伙伴攜手打造更多的數(shù)據(jù)中心類的AI管理,將更新的管理技術(shù)以及更好的模塊化的輔助產(chǎn)品提供給客戶,創(chuàng)造更多的價值,滿足客戶的需求。
責(zé)任編輯: 張磊