根據(jù)英偉達(dá)的數(shù)據(jù)顯示,在2023年,公司與 AI 工作負(fù)載相關(guān)的英偉達(dá)數(shù)據(jù)中心部門的銷售收入為 184 億美元,比去年同期增長了 409%。2023 年,Nvidia 在數(shù)據(jù)中心GPU市場占有約 98% 的份額,因為其旗艦 H100 芯片幾乎沒有競爭對手。
進(jìn)入2024年,英偉達(dá)的GPU銷量依然猛增,英偉達(dá)CEO黃仁勛也直言,公司新推出的Blackwell在市場的關(guān)注度非常高,也有很多客戶在買。根據(jù) Jon Peddie Research 的數(shù)據(jù),今年全球 GPU 市場預(yù)計將超過 985 億美元。黃仁勛也認(rèn)為,數(shù)據(jù)中心運營商將在未來四年內(nèi)花費 1 萬億美元升級其基礎(chǔ)設(shè)施,以滿足 AI 開發(fā)人員的需求,因此這個機(jī)會足以支持多家 GPU 供應(yīng)商。
最近幾天的消息看來,Elon Musk和Mark Zuckerberg已經(jīng)率先開始了新一輪GPU爭奪賽。
Elon Musk要打造100萬GPU集群
據(jù)金融時報最新報道,埃隆·馬斯克的人工智能初創(chuàng)公司 xAI 承諾將其 Colossus 超級計算機(jī)擴(kuò)大十倍,以容納超過 100 萬個圖形處理單元,以超越谷歌、OpenAI 和 Anthropic 等競爭對手。
Colossus 于今年早些時候建成,僅用了三個月時間,被認(rèn)為是世界上最大的超級計算機(jī),運行著一個由 100,000 多個互連的 Nvidia GPU 組成的集群。馬斯克位于孟菲斯的超級計算機(jī)非常引人注目,因為他的初創(chuàng)公司能夠快速將 GPU 組裝成一個 AI 處理工作集群?!皬拈_始到結(jié)束,只用了 122 天,”馬斯克說。超級計算機(jī)通常需要數(shù)年時間才能建成。(有關(guān)Elon musk的集群,可以參考半導(dǎo)體行業(yè)觀察之前的文章《探秘全球最大GPU集群》)
他的公司可能還花費了至少 30 億美元來組裝這臺超級計算機(jī),因為目前這臺超級計算機(jī)由 10 萬塊 Nvidia H100 GPU 組成,每塊 GPU 的價格通常約為 3 萬美元。馬斯克現(xiàn)在想用 H200 GPU 來升級這臺超級計算機(jī),H200 GPU 的內(nèi)存更大,但每塊 GPU 的價格接近 4 萬美元。
Nvidia也透露,稱xAI 的“Colossus”超級計算機(jī)的規(guī)模正在擴(kuò)大一倍。馬斯克還在推特上表示,這臺超級計算機(jī)即將在一座占地 785,000 平方英尺的建筑物內(nèi)整合 200,000 個 H100 和 H200 Nvidia GPU。
戴爾首席運營官杰夫·克拉克周四在接受采訪時表示:“我們從一張白紙開始,在短短幾個月內(nèi)大規(guī)模部署了數(shù)萬個 GPU?!薄霸摷喝栽诮ㄔO(shè)中,我們正在脫穎而出?!?/p>
如上所述,馬斯克的初創(chuàng)公司 xAI 正在開發(fā)一個大型設(shè)施,以提高其在打造人工智能工具的競賽中的計算能力。大孟菲斯商會周三也發(fā)表聲明稱,擴(kuò)大田納西州孟菲斯工廠規(guī)模的工作已經(jīng)開始。商會表示, Nvidia、戴爾和超微電腦也將在孟菲斯建立業(yè)務(wù)以支持?jǐn)U張,同時將成立一支“xAI 特別行動團(tuán)隊”,以“為公司提供全天候禮賓服務(wù)”。
相關(guān)報道指出,目前尚不清楚 xAI 計劃在擴(kuò)展期間使用當(dāng)前一代 Hopper 還是下一代 Blackwell GPU。Blackwell 平臺的擴(kuò)展性預(yù)計比 Hopper 更好,因此使用即將推出的技術(shù)而不是現(xiàn)有技術(shù)更有意義。但無論如何,獲得 800,000 – 900,000 個 AI GPU 都很難,因為 Nvidia 產(chǎn)品的需求量巨大。另一個挑戰(zhàn)是讓 1,000,000 個 GPU 以最高效率協(xié)同工作,而 Blackwell 再次更有意義。
據(jù)華爾街日報之前的報到,英偉達(dá)的一位銷售主管告訴同事,馬斯克對芯片的需求給公司的供應(yīng)鏈帶來了壓力。Nvidia 的一位發(fā)言人表示,公司一直努力滿足所有客戶的需求。
當(dāng)然,此次擴(kuò)張的資金需求是巨大的。購買 GPU(每個花費數(shù)萬美元)以及電力和冷卻基礎(chǔ)設(shè)施可能會將投資推高至數(shù)百億美元。xAI 今年已籌集了 110 億美元,最近又獲得了 50 億美元。目前,該公司的估值為 450 億美元。
Meta也砸百億建設(shè)數(shù)據(jù)中心
在Elon Musk搶購GPU的同時,Mark Zuckerberg也不甘示弱。
Meta Platforms Inc周三表示,公司計劃在路易斯安那州東北部建設(shè)一個價值 100 億美元的人工智能數(shù)據(jù)中心園區(qū),這將是該公司迄今為止建設(shè)的最大數(shù)據(jù)中心。該園區(qū)占地 400 萬平方英尺,將坐落于里奇蘭教區(qū),這是一個以農(nóng)田為主的農(nóng)村地區(qū),靠近現(xiàn)有的公用設(shè)施基礎(chǔ)設(shè)施,預(yù)計本月破土動工,并持續(xù)到 2030 年。
數(shù)據(jù)中心規(guī)劃的基礎(chǔ)設(shè)施將容納處理海量數(shù)據(jù)所需的網(wǎng)絡(luò)和服務(wù)器,以支持日益增長的數(shù)字技術(shù)使用,并將針對人工智能工作負(fù)載進(jìn)行優(yōu)化,這些工作負(fù)載尤其需要數(shù)據(jù)和計算。一旦上線,它將能夠支持Meta 的所有服務(wù),包括 Facebook、Messenger、Instagram、WhatsApp 和 Threads。
在此次數(shù)據(jù)中心投資消息公布之前,其他公司也在努力擴(kuò)大其數(shù)據(jù)和計算能力,以滿足人工智能和機(jī)器學(xué)習(xí)應(yīng)用程序和工作負(fù)載日益增長的需求。
Meta 數(shù)據(jù)中心戰(zhàn)略總監(jiān) Kevin Janda 表示:“Meta正在構(gòu)建人類連接的未來以及實現(xiàn)這一目標(biāo)的技術(shù)。這個數(shù)據(jù)中心將成為這一使命的重要組成部分?!?/p>
路易斯安那州州長杰夫·蘭德里表示,新數(shù)據(jù)中心將為該地區(qū)帶來新的技術(shù)機(jī)遇。路易斯安那州經(jīng)濟(jì)發(fā)展局是一家致力于改善該州商業(yè)環(huán)境的政府機(jī)構(gòu),據(jù)該機(jī)構(gòu)估計,該園區(qū)將創(chuàng)造約 1,500 個就業(yè)崗位。
“ Meta 的投資將使該地區(qū)成為路易斯安那州快速發(fā)展的科技行業(yè)的支柱 ,振興我們州美麗的鄉(xiāng)村地區(qū)之一,并為路易斯安那州的工人創(chuàng)造未來高薪工作的機(jī)會,”蘭德里說。
Meta 沒有透露新設(shè)施將支持多少 GPU,也沒有透露打算使用哪家公司的芯片。據(jù) Entergy稱 ,該中心將由三座天然氣廠提供電力,總發(fā)電量為 2.2 千兆瓦。他們也強調(diào),其中大部分成本將用于加速器以及支持它們的主機(jī)、存儲和網(wǎng)絡(luò)。如果你假設(shè)人工智能設(shè)施 90% 的成本用于 IT 設(shè)備,那么建設(shè)該設(shè)施的成本為 10 億美元,而設(shè)備成本為 90 億美元。假設(shè) IT 設(shè)備成本的一半多一點用于加速器,那么現(xiàn)在就是 50 億美元。以平均 25,000 美元的價格計算,這相當(dāng)于 200,000 個人工智能加速器。如果你假設(shè)這里將擠滿未來自主研發(fā)的 MTIA 加速器,而這些加速器的成本只有這里一半,那么這些加速器的成本將達(dá)到 400,000 美元。
Meta 首席執(zhí)行官馬克·扎克伯格此前曾表示,到 2024 年底,公司將在公司數(shù)據(jù)中心運行 350,000 塊 Nvidia H100 芯片,盡管該公司也在開發(fā)自己的 AI 硬件。
誰擁有最多的GPU?
除了上述兩家廠商以外,包括微軟、谷歌、AWS和CoreWeave以及國內(nèi)一眾的云廠商都成為了英偉達(dá)GPU的追逐者。財富在日前的報道中指出,一個由三家特別財力雄厚的客戶組成的精英群體,在截至10月底的前九個月內(nèi),分別購買了價值100億至110億美元的商品和服務(wù)。(具體參考文章《三個客戶,包養(yǎng)了英偉達(dá)》)。
而統(tǒng)計當(dāng)前的GPU擁有量,按博客lesswrong的預(yù)估,如果都換成以H100的等效算力。截止目前,世界五大科技公司的2024年擁有的算力,以及2025年的預(yù)測:
微軟有75萬-90萬塊H100,明年預(yù)計達(dá)到250萬-310萬;
谷歌有100萬-150萬塊H100,明年預(yù)計達(dá)到350萬-420萬;
Meta有55萬-65萬塊H100,明年預(yù)計達(dá)到190萬-250萬;
亞馬遜有25萬-40萬塊H100,明年預(yù)計達(dá)到130萬-160萬;
xAI有10萬塊H100,明年預(yù)計達(dá)到55萬-100萬;
該博客同時指出,按照2024 年人工智能狀況報告 主要供應(yīng)商購買 Blackwell 芯片的情況進(jìn)行了估計——大型云公司正在大量購買這些 GB200 系統(tǒng):微軟購買了 70 萬到 140 萬個,谷歌購買了 40 萬個,AWS 購買了 36 萬個。據(jù)傳,OpenAI 至少擁有 40 萬個 GB200。
由此可見,新一代的Blackwell 的歡迎程度很高。目前正在建設(shè)的數(shù)據(jù)中心可能會采用 Nvidia 的 Blackwell 芯片,該公司預(yù)計明年將大量出貨。不過,市場已經(jīng)開始期待該公司推出的 Rubin 芯片,這是 Blackwell 之后的下一代芯片。
英偉達(dá)首席執(zhí)行官黃仁勛在10月初接受CNBC 的《Closing Bell Overtime》節(jié)目采訪時表示,該公司下一代人工智能芯片 Blackwell 的需求“瘋狂”。他說道:“每個人都想擁有最多,每個人都想成為第一。”
黃仁勛在接受 CNBC 采訪時表示:“在技術(shù)發(fā)展如此迅速的時代,我們有機(jī)會三倍投入,真正推動創(chuàng)新周期,從而提高產(chǎn)能、提高產(chǎn)量、降低成本、降低能耗。我們正在朝著這個方向努力,一切都在按計劃進(jìn)行?!?/p>
首席財務(wù)官科萊特·克雷斯 (Colette Kress)八月份曾表示,公司預(yù)計第四財季 Blackwell 營收將達(dá)數(shù)十億美元。
Jensen 表示,Nvidia 計劃每年更新其 AI 平臺,將性能提高兩到三倍。
Melius Research 分析師 Ben Reitzes 在一份研究報告中寫道:“越來越多的猜測認(rèn)為,Nvidia 的下一代 GPU(繼 Blackwell 之后)——名為 Rubin——可能會比大多數(shù)投資者預(yù)計的 2026 年提前 6 個月準(zhǔn)備就緒?!?/p>
Reitzes 警告稱,芯片的發(fā)布很少會提前,并維持該股 195 美元的目標(biāo)價,他表示,這是假設(shè) Rubin 在 2026 年下半年進(jìn)行部署。
寫在最后
在GPU廣受歡迎的當(dāng)下,英偉達(dá)無疑是最大的贏家。但AMD也不甘人后,正在努力成為這個市場的另一個重要角色。除此以外,微軟、Meta、谷歌、AWS等巨頭,也都在打造自主的AI芯片,希望在這個市場憑借自研的加速器,去英偉達(dá)GPU之間找到另一個平衡點。
例如AWS 首席執(zhí)行官馬特·加曼 (Matt Garman) 在日前的大會中所說:“如今,GPU 方面實際上只有一個選擇,那就是 Nvidia。我們認(rèn)為客戶會喜歡有多種選擇?!?/p>