10月30日消息,KKR和私募股權投資公司Energy Capital Partners(ECP)將投資500億美元全面支持人工智能發(fā)展,主要方向為數據中心和能源領域。
10月30日消息,萬國數據國際業(yè)務再獲10億美元股權融資,助力加速海外新興市場戰(zhàn)略布局。
10月30日消息,西貢電信技術股份公司(Saigontel)有意在胡志明市古芝縣新富忠工業(yè)園(Tan Phu Trung)開發(fā)新的數據中心項目。
10月28日消息,微軟計劃在利金縣開發(fā)三個數據中心園區(qū),并在初始階段投資10億美元。該項目于周一獲得了州稅收優(yōu)惠的批準。
10月28日消息,銀川中創(chuàng)普惠智算中心項目12月初將完成設備調試,最快年底完成交付。
10月28日消息,中國(新疆)自貿試驗區(qū)喀什片區(qū)智算中心預計11月中旬完成一期機房改造,最快年底將夠提供算力服務。
10月25日消息,中貝合肥智算中心與知魚智聯正式簽署算力集群交接書,完成首批華為910B算力集群交付。
10月24日消息,河南空港智算中心項目首批2000P算力正式進入加電調試階段。
10月24日,尚航科技重磅發(fā)布尚航全新智算中心項目——“懷來尚云智算中心”。
……
10月8日,富士康宣布,將攜手英偉達(NVIDIA),打造有史以來全球最快的單體AI超級計算中心——鴻海高雄超級計算中心。
……
10月以來,全球數據中心建設布局熱度不減,尤其我國大批智算中心建設正全面提速,很多項目都陸續(xù)進入交付階段。然而,隨著生成式AI應用的持續(xù)發(fā)展,在進行智算中心規(guī)劃和建設時,很多重要新變化值得引起行業(yè)關注,涉及智算中心的設施工程、電力、制冷等諸多廠商。
全球數據中心建設布局
其中,兩個重大變化值得整個IDC產業(yè)關注:一個是算力密度增加帶來的設計、設備等一系列要求變化,主要涉及包括GPU的利用率以及總擁有成本TCO等問題。一個是電力需求引發(fā)的整體布局、設計、設備的要求變化,主要涉及包括工作負載以及故障等問題。
01 Meta拆了在建的數據中心
2022年12月,Meta對外宣布已經停建了兩個位于丹麥歐登塞的數據中心,Meta這一動作的主要原因是舊設計(下圖左側)是針對低功率密度(Power Density)的方案,無法滿足AI的全新需求,之后Meta用全新AI就緒設計(AI-Ready design)(下圖右側)替代了原有方案,這一舉措對全球數據中心行業(yè)引發(fā)著深遠影響。
AI就緒設計
【IDC圈注】“AI就緒設計(AI-Ready design)”指的是為應對人工智能應用而特別優(yōu)化和配置的數據中心設計。這類設計通過采用最新的硬件和電力系統(tǒng)來支持AI的高功率和高密度計算需求。例如,它們集成了高效的電力傳輸、冷卻系統(tǒng)和計算密度,能夠支持AI訓練和推理任務所需的強大計算能力。AI就緒設計通常包括更高的功率密度、先進的冷卻技術(如液冷),并針對GPU和AI工作負載進行優(yōu)化,以實現更高的性能和能效。這樣,數據中心能夠更好地滿足AI應用的性能需求,并降低整體的總擁有成本(TCO)。
Meta原有的“H"型舊設計,對建筑整體建設部署成本較高:通過計算發(fā)電機組數量比較會發(fā)現,其"H"型建筑最多配備36個發(fā)電機組,但Google使用更大容量的發(fā)電機僅需34個,而且其單體建筑面積是Google建筑的一倍多??紤]到規(guī)模和結構的復雜性,建設周期差異很大:"H"建筑從開工到竣工需要約兩年時間,而Google的建筑僅需6-7個月。
然而,以上都不是做出設計改變的根本動因,更重要的是功率密度:Meta原有的“H"型建筑每平方英尺千瓦數不足Google數據中心的1/3,哪怕"H"建筑在能源效率方面具有顯著優(yōu)勢,依然無法抵消其在生成式AI競爭中的劣勢。因為任何無法提供更高密度液體冷卻能力的數據中心,將來都無法為客戶帶來顯著的性能與總擁有成本(TCO)改進,進而導致在生成式AI競爭中落后。
02 算力密度增加帶來“新變”
近年來,數據中心的性能演進正逐步適應高功率密度和AI工作負載的需求,但這一過程面臨著技術和經濟上的多重挑戰(zhàn)。
數據中心的性能演進
首先,高功率密度方面,目前大多數現有托管數據中心都還沒有準備好支持單機架功率密度超過20 KW的需求。盡管預計2024年芯片供應瓶頸將有所緩解,但對于超大規(guī)模企業(yè)和托管服務提供商可能仍然會面臨數據中心容量的限制,尤其是在人工智能方面相關因素的準備不足。例如,傳統(tǒng)托管設施中普遍存在的12-15kW功率限制等,都可能會成為建設AI集群數據中心理想物理密度的障礙。
AI集群數據中心
一般來說,在新建數據中心中部署背板式熱交換器和液冷方案,可以有效解決功率密度問題。但與采用傳統(tǒng)設計方案的已建設數據中心進行改造相比,從頭設計融入這些解決方案的新數據中心其實更合理。因為改造現有的數據中心會存在各種各樣不可預知的問題。比如,可能缺乏足夠的物理空間容納額外的2-3 MW發(fā)電機、不間斷電源(UPS)、開關設備或變壓器等,而且重新鋪設管道以適應液冷所需的冷卻分配單元(CDU)等設備在某些情況下難度也會比較大。Meta也正是因為意識到這一點,所以暫停了原有的數據中心項目,轉而重新設計專為人工智能工作負載定制的新型數據中心。
以NVIDIA的DGX H100服務器為例,為了滿足高功率密度,其部署方式會受到數據中心的電力和制冷能力限制有所不同,單個機架內可能僅能部署2到3臺DGX H100服務器,并將相鄰機架留空。
服務器部署方式
此外,隨著越來越多的數據中心開始支持人工智能工作負載,通過增加專用氣流設備,單個機架的功率密度有望達到30-40 kW,甚至更高,并且仍采用空氣冷卻的方式。未來采用液冷技術可以減少風扇的用電量,從而降低單機架的能耗約10%,并通過減少或消除對環(huán)境空氣冷卻的依賴,使電力使用效率(PUE)降低0.2-0.3。當然,這對大多數數據中心來說也是最后一波顯著的PUE優(yōu)化空間。
數據中心空氣冷卻方式
更值得關注的是,AI訓練和推理對數據中心的工作負載有著獨特的要求,這與現有數據中心中部署的典型硬件有很大不同。
AI訓練工作負載非常耗電,AI硬件的運行功率通常接近其熱設計功率(TDP),每臺AI服務器現在都超過了10KW。再考慮到AI訓練對延遲不敏感,以及對靠近人口中心重要性的降低,這意味著與傳統(tǒng)工作負載相比,對于AI訓練來說,大量廉價電力的可用性(未來獲得任何電網供應的可能性)對于工作負載而言具有更高的相對重要性。而對于AI推理來說,最終將會產生比訓練更大的工作負載,總體規(guī)模將是巨大的,但不同于訓練,推理可以是相當分布式的,芯片并不需要集中放置。
03 電力需求提升引發(fā)“新變”
AI訓練和推理的巨大需求正在成為數據中心規(guī)劃建設諸多變化的主要驅動力,使得電力供應緊張加劇,更重要的是電力需求提升將正在導致電力或冷卻系統(tǒng)問題頻發(fā),進而持續(xù)影響著整個產業(yè)格局。
AI訓練和推理
電力需求有多大?
一個包含20,840個Nvidia H100集群的數據中心需要約25.9MW的核心IT功率容量。而目前,整個數據中心行業(yè)正在建設容量更高的100,000個H100集群和千兆瓦級(Gigawatt)集群,數據中心基礎設施的供電能力需求還將繼續(xù)飆升。
數據中心基礎設施的供電能力需求
Source:SemiAnalysis Datacenter Model
數據中心的電力挑戰(zhàn)
以Nvidia為例,其GB200系列的高功率需求(每個機架超過130kW)與以往的數據中心設計截然不同,這也就導致當前新建數據中心(智算中心)在電力系統(tǒng)方面要格外重視。
未來,任何數據中心的電力或冷卻系統(tǒng)問題都可能導致運營中斷,進而帶來巨大的收入損失和聲譽損害。這對于云服務提供商(CSP,如Azure和AWS)以及托管服務提供商(如托管數據中心房地產)尤為重要。確保高正常運行時間(Uptime)是確保收入的關鍵,這很大程度上依賴于電力與冷卻系統(tǒng)的可靠性。盡管電氣故障相對更常見,但通常其影響范圍較小,而冷卻系統(tǒng)故障的破壞性往往更大。
從數據中心和電力流角度來看,現代數據中心正在通過模塊化方式構建,一座數據中心通常被分解為多個機房(Data Halls,藍色矩形),每棟數據中心建筑(約25萬平方英尺)的關鍵IT容量(Critical IT capacity)為48MW,每棟建筑分為五個機房,即每個機房9.6MW。
數據中心模塊化方式構建
Source:Google Earth,SemiAnalysis
在一個機房內有多個"Pod",每個Pod都有自己專用的一組電氣設備:發(fā)電機(Generator,橙色矩形)、變壓器(Transformer,綠色矩形)、不間斷電源(UPS)和開關設備(Switchgear)。在上圖中,可以看到每個機房有四個發(fā)電機和變壓器。還有四個Pod,這也意味著四個低壓配電板(Switchboards)和八個UPS系統(tǒng)(假設2N配電冗余)。
機房發(fā)電機
Source:Legrand
機房通常劃分為Pod以實現模塊化和標準化的設計,主要有以下兩個原因:
1.模塊化:設施可以根據負載需求逐步擴展,以實現快速適應高負載的能力。
2.標準化:Pod的設計使其與標準化的電氣設備相匹配,這些設備在市場上更易于采購且成本較低,避免了訂制設備的高昂價格。
以Nvidia的下一代Blackwell數據中心設計為例,在新的架構中,一個通道甚至一整排機架都將作為機房中的新“Pod”。
數據中心設計
而在電力傳輸架構中,每個機架需要兩個(NVL36)或四個(NVL72)33kW電源架,考慮到空間和密度限制,不太可能使用機架內BBU(Battery Backup Unit,電池備份單元),這意味著中央UPS依然是必需的。
中央UPS
因此,電力需求的大幅增長將導致供應商的供貨量顯著提升,這很可能進一步加劇供應鏈緊張。
模塊化UPS
傳統(tǒng)UPS是數據中心用電效率"殺手",導致數據中心PUE居高不下。而現代UPS系統(tǒng)大多采用模塊化設計:不再使用單一的大型設備,而是將其拆分為若干可堆疊、并聯工作的小型"電力模塊"。以Vertiv最新產品為例,單個電力模塊的容量為200kVA或400kVA,模塊化UPS產品可在單機柜內集成多達10個電力模塊,多機柜并聯可進一步擴容,單系統(tǒng)最大容量可達27MW。此外,現代模塊化UPS采取了多項節(jié)能設計。比如Vertiv的產品支持"變頻節(jié)能模式"(VFD mode),可繞過變流器,將效率提升至99%以上。但這種模式下切換時間可能延長數毫秒,存在瞬時斷電風險。
模塊化UPS
Source:Vertiv
此外,超大規(guī)模數據中心通常采用4N3R(四套可用設備對應正常運行所需的三套)或N+2C(也稱為"Catcher")等方案,以提高UPS負載利用率(更高效),并降低每兆瓦的資本支出(CapEx)。
在Catcher方案中,沒有配置兩個滿載能力的UPS系統(tǒng)(如下例中的2*3MW),而是采用N+1設計,包含多個較小的UPS(3*1MW)和一個冗余單元。當出現故障時,我們使用靜態(tài)轉換開關(Static Transfer Switches,STS)將負載瞬間從一個UPS切換到另一個。STS比自動轉換開關(ATS)快得多,因為它們依靠電力電子元件而非機械部件。在4N3R方案中,我們使用四套獨立的配電系統(tǒng),從配電一直到背板(即從電源線一直到發(fā)電機和變壓器),其中僅需三套即可保證運行。
Catcher方案
Source:SOCOMEC
OCP機架與電池備份
值得關注的是,超大規(guī)模企業(yè)往往會突破常規(guī),另辟蹊徑。比如Meta十年前推出的OCP(Open Compute Project)開放計算機架就是個典型案例。在傳統(tǒng)機架設計中,服務器通過配置在機柜內的PDU獲得交流市電,再經服務器內置的整流器轉換為直流。而OCP的思路是:不如集中配置一個功能強大的電源架(Power Shelf),直接輸出直流電,再通過bus bar統(tǒng)一配送到各服務器,從而省去每臺服務器配備AC/DC轉換器的重復投入。
此外,OCP電源架還可集成BBU,相當于一個"微型UPS",可在市電斷供時持續(xù)輸出直流電幾分鐘,保障服務器安全關機。由于電源架位于機柜內部,所以BBU的直流電可就近輸送給服務器,免去了傳統(tǒng)UPS系統(tǒng)中兩次AC/DC的轉換損耗。而機房由于不再需要集中的A、B雙路UPS,所需電池容量也減少了一半。為進一步降低布線損耗,Google在此基礎上提出了48V直流供電方案。
當然,在機柜內大規(guī)模部署鋰電池,對防火、環(huán)控等配套設施提出了更高要求。傳統(tǒng)UPS電池多集中布置在獨立的電池室內,易于統(tǒng)一管理,這一點OCP設計還難以企及。
傳統(tǒng)UPS電池布置
Source:Schneider Electric
柴油發(fā)電機的前景與變化
與此同時,隨著AI的快速發(fā)展超大規(guī)模數據中心正迅速擴展,并努力縮短數據中心的建設周期。柴油發(fā)電機也因此面臨挑戰(zhàn),尤其是因其噪音和污染物排放而受到的許可限制。
柴油發(fā)電機
Source:SemiAnalysis
實時圖像分析顯示,Meta正考慮完全繞過發(fā)電機。而Microsoft的超大型數據中心將只使用部分發(fā)電機負載,X.AI在孟菲斯的項目也采用了電池儲能系統(tǒng),發(fā)電機作為現場電源的備選,這種變革顯示出備用電源正在向更環(huán)保的電池儲能解決方案轉移。
電池儲能解決方案
當然,在當前的超大規(guī)模數據中心內,發(fā)電機依然是不可或缺的選擇,在超大規(guī)模數據中心內,備用發(fā)電機的單機容量一般為2~3MW,園區(qū)內動輒部署數十臺發(fā)電機。當前,這些發(fā)電機通常以柴油為燃料,但未來天然氣可能會成為主要的替代選擇。它們的儲油量一般可滿足24~48小時的滿負荷應急供電。盡管柴油發(fā)電的能效更高,但煙氣污染也更嚴重。因此,在環(huán)保要求嚴格的地區(qū),柴油發(fā)電機往往配備有尾氣處理裝置,造價也更高。
最后,還有一個略微產生影響的變化因素是冗余度(Redundancy Level)的降低——超大規(guī)模運營商已經開始這樣做。在大規(guī)模訓練過程中,由于GPU節(jié)點上的高故障率,訓練框架被迫發(fā)展出了強大的容錯機制,使得現代訓練系統(tǒng)具備了較好的抗故障能力(Robustness),這使得數據中心端較低的冗余水平變得越來越可以接受。
總之,當前數據中心建設與AI技術的發(fā)展密不可分,尤其對于正處于火熱建設中的中國智算中心建設市場來說,快速的市場變化需要強有力的設計和運營合作伙伴,以應對增長的功率密度需求和不斷變化的技術趨勢。供應商之間的合作將推動更高效、更具擴展性的滿足AI的數據中心設計,并在競爭激烈的市場中取得領先地位。
參考資料及文章內容來源:
1.Deploying The AI Factory
2.Datacenter Anatomy Part 1_ Electrical Systems
3.Al Datacenter Energy Dilemma
4.Generational growth Al,data centers and the coming US power demand surge
5.Powering Up Europe:AI datacenters and electrification to drive+c.40%-50%growth in electricity consumption etc.
中國IDC產業(yè)年度大典組委會將于2024年12月19日-20日在北京隆重舉辦第十九屆中國IDC產業(yè)年度大典(IDCC2024)。(點擊鏈接,了解核心話題:多元重構算力躍遷|第十九屆中國IDC產業(yè)年度大典即將啟動!)大會聚焦“智算崛起”“賦能協(xié)同”“環(huán)球布局”“誰主沉浮”“算力新十年”幾大議題模塊,旨在探討算力產業(yè)的未來發(fā)展方向、技術創(chuàng)新、商業(yè)模式變革以及可持續(xù)發(fā)展路徑。攜手算力產業(yè)精英,共同推動中國乃至全球數字經濟的繁榮與發(fā)展。目前報名通道已開啟,掃描以下二維碼即可報名。
IDCC2024-第十九屆中國IDC產業(yè)年度大典報名