據(jù)華爾街日?qǐng)?bào)12月3日?qǐng)?bào)道,亞馬遜云計(jì)算部門(mén)Amazon Web Services(AWS)本周二宣布了兩項(xiàng)重要?jiǎng)討B(tài),一是宣布打造由數(shù)十萬(wàn)顆自研Trainium芯片組成的超級(jí)計(jì)算機(jī)集群“Ultracluster”;二是推出全新服務(wù)器“Ultraserver”。
亞馬遜云計(jì)算
“Ultracluster”是亞馬遜位于德克薩斯州奧斯汀的AI芯片設(shè)計(jì)實(shí)驗(yàn)室研發(fā)的最新成果,AWS透露“Ultracluster”將用于支持AI初創(chuàng)企業(yè)Anthropic的模型訓(xùn)練工作。Anthropic是亞馬遜投資的重點(diǎn)對(duì)象,并于近期獲得了亞馬遜追加的40億美元投資。
這個(gè)名為“Project Rainier”的集群項(xiàng)目將位于美國(guó),預(yù)計(jì)將在2025年投入使用,屆時(shí)將成為全球最大的AI模型訓(xùn)練集群之一。AWS表示,其Ultracluster項(xiàng)目的計(jì)算性能是Anthropic當(dāng)前訓(xùn)練集群的五倍,能夠顯著提升AI模型的訓(xùn)練效率。
Ultraserver服務(wù)器由64顆自研芯片互聯(lián)組成,采用創(chuàng)新的設(shè)計(jì)架構(gòu),為客戶(hù)提供強(qiáng)大的算力支持。Ultraserver通過(guò)將64顆芯片集成到一個(gè)封裝中,組合了四臺(tái)服務(wù)器,每臺(tái)服務(wù)器包含16顆Trainium芯片,相比之下,某些Nvidia的GPU服務(wù)器僅包含8顆芯片.
AWS副總裁Dave Brown表示,為了使這些芯片協(xié)同工作為一臺(tái)服務(wù)器,AWS利用其網(wǎng)絡(luò)技術(shù)“NeuronLink”實(shí)現(xiàn)四臺(tái)服務(wù)器的高效通信,從而將計(jì)算能力提升至83.2 PetaFLOPS。AWS表示,從體積來(lái)看,Ultraserver更接近于冰箱大小的主機(jī)計(jì)算機(jī),而非緊湊型個(gè)人電腦。
AWS的AI芯片布局始于2018年發(fā)布的Inferentia芯片,這是一款專(zhuān)門(mén)用于AI推理計(jì)算的芯片;2020年,推出首款A(yù)I模型訓(xùn)練芯片Trainium;隨后在2023年發(fā)布了性能更強(qiáng)的Trainium2,目前已經(jīng)向客戶(hù)全面開(kāi)放使用。據(jù)AWS透露,下一代Trainium3芯片及基于其的服務(wù)器正在開(kāi)發(fā)中,其性能將達(dá)到當(dāng)前版本的四倍。
據(jù)統(tǒng)計(jì),2024年全球AI芯片市場(chǎng)規(guī)模達(dá)1175億美元,預(yù)計(jì)到2027年將增長(zhǎng)至1933億美元,其中Nvidia占據(jù)約95%的市場(chǎng)份額。AWS首席執(zhí)行官M(fèi)att Garman表示:“目前在GPU領(lǐng)域,幾乎只有Nvidia一家選擇。但我們相信,客戶(hù)需要更多的選擇。”