《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動(dòng)態(tài) > xAI將在5年內(nèi)部署等效5000萬個(gè)H100 GPU

xAI將在5年內(nèi)部署等效5000萬個(gè)H100 GPU

2025-07-25
來源:芯智訊
關(guān)鍵詞: xAI 英偉達(dá) AIGPU H100

1.jpg

7月23日,美國人工智能初創(chuàng)企業(yè)xAI CEO埃隆·馬斯克(Elon Musk)宣布,xAI 計(jì)劃在未來五年內(nèi)部署相當(dāng)于5,000萬個(gè)英偉達(dá)(NVIDIA)H100 等級的AI GPU,這一目標(biāo)不僅在規(guī)模上超越當(dāng)前的AI 硬件標(biāo)準(zhǔn),還將在能效上有顯著提升。

50 ExaFLOPS 用于 AI 訓(xùn)練

雖然5000萬個(gè)英偉達(dá)H100的數(shù)量看起來很多,但考慮到這里指的是“等效算力”,這也意味著如果xAI未來五年持續(xù)采用最先進(jìn)的GPU,可能只需要不到100萬個(gè)左右就能夠?qū)崿F(xiàn)。

目前一個(gè)英偉達(dá)H100 GPU 可以為 AI 訓(xùn)練提供大約 1,000 FP16/BF16 TFLOPS(這些是目前最流行的 AI 訓(xùn)練數(shù)據(jù)格式),因此到 2030 年,5000 萬臺此類 AI 加速器將需要提供 50 個(gè) FP16/BF16 ExaFLOPS算力用于 AI 訓(xùn)練。根據(jù)當(dāng)前的性能改進(jìn)趨勢,這在未來五年內(nèi)是可以實(shí)現(xiàn)的。

需要65萬個(gè)Feynman Ultra GPU

假設(shè)英偉達(dá)(或其他AI芯片公司)將繼續(xù)以略慢于 Hopper 和 Blackwell 的升級速度擴(kuò)展其 GPU 的 BF16/FP16 訓(xùn)練性能,那么預(yù)計(jì)到 2028 年將使用 130 萬個(gè) 最新的GPU 或 2029 年使用 65萬個(gè)最新的GPU。

2.jpg

如果 xAI 有足夠的錢花在英偉達(dá)最新的AI芯片上,甚至有可能更早實(shí)現(xiàn)部署 50 ExaFLOPS 的AI算力的目標(biāo)。

目前馬斯克 的 xAI 已經(jīng)部署最新 AI GPU 加速器,以提高該公司的AI訓(xùn)練能力,其 Colossus 1 超級集群使用了 200,000 個(gè)基于 Hopper 架構(gòu)的英偉達(dá)H100 和 H200 加速器,以及 30,000 個(gè)基于 Blackwell 架構(gòu)的 GB200 加速器。

此外,xAI接下來的目標(biāo)是構(gòu)建由 550,000 個(gè) GB200 和 GB300 節(jié)點(diǎn)組成的 Colossus 2 集群(每個(gè)節(jié)點(diǎn)都有兩個(gè) GPU,因此該集群將配備超過 100 萬個(gè) GPU)。據(jù)馬斯克透露,第一批節(jié)點(diǎn)將在未來幾周內(nèi)上線。

性能穩(wěn)定提升

英偉達(dá)(和其他公司)新的 AI 加速器的更新節(jié)奏現(xiàn)在轉(zhuǎn)向了每年一更新,而具體產(chǎn)品的性能升級幅度類似于英特爾過去的 Tick-Tock 模型,即一年小升級,一年大升級。例如,Blackwell后續(xù)是Blackwell Ultra,再接下來是Rubin,后續(xù)是Rubin Ultra。

這種方法確保了每年性能的顯著提高,從而確保了長期性能的顯著提升。例如,英偉達(dá)聲稱其Blackwell B200的推理性能比2016年P(guān)ascal P100高出了20000倍,提供約20000個(gè)FP4 TFLOPS性能,而P100的性能只有19個(gè)FP16 TFLOPS。雖然不是直接比較,但該指標(biāo)與推理任務(wù)相關(guān)。當(dāng)以每生成一個(gè)Token的焦耳數(shù)來衡量時(shí),Blackwell的能源效率也是Pascal的42500倍。

事實(shí)上,英偉達(dá)和其他公司并沒有隨著性能的持續(xù)提高而放緩性能提高的速度。例如,Blackwell Ultra架構(gòu)(B300系列)在人工智能推理方面的FP4性能(15 FPLOPS)比原始Blackwell GPU(10 FPLOPS)高出50%,在人工智能訓(xùn)練方面的BF16和TF32格式性能高出兩倍,但I(xiàn)NT8、FP32和FP64性能較低。作為參考,BF16和FP16是用于AI訓(xùn)練的典型數(shù)據(jù)格式(盡管FP8似乎也經(jīng)過了評估),因此可以合理地預(yù)期英偉達(dá)將通過其下一代Rubin、Rubin Ultra、Feynman和Feynman Ultra GPU來提高這些數(shù)據(jù)格式的性能。

3.jpg

根據(jù)計(jì)算,英偉達(dá)H100的FP16/BF16的性能相比A100提高了3.2倍,然后B200相比H100性能又提高了2.4倍。當(dāng)然,實(shí)際的訓(xùn)練性能不僅取決于新GPU的純數(shù)學(xué)性能,還取決于內(nèi)存帶寬、模型大小、并行性(軟件優(yōu)化和互連性能)以及FP32的累積使用。然而,可以肯定地說,英偉達(dá)可以通過每一代新一代的GPU將其訓(xùn)練性能(FP16/BF16格式)提高一倍。

假設(shè)英偉達(dá)可以通過基于Rubin和下一代的Feynman架構(gòu)的四代后續(xù)AI加速器實(shí)現(xiàn)上述性能提升,那么在2029年的某個(gè)時(shí)候,大約需要65萬個(gè)Feynman Ultra GPU才能達(dá)到大約50個(gè)BF16/FP16 ExaFLOPS。

耗電量巨大

盡管馬斯克的xAI和其他人工智能領(lǐng)導(dǎo)者可能會(huì)在未來四五年內(nèi)獲得50 BF16/FP16 ExaFLOPS用于人工智能訓(xùn)練,但最大的問題是這樣一個(gè)超級AI集群將消耗多少電力?

4.png

一個(gè)H100 AI加速器功耗大約700W,因此其中5000萬個(gè)處理器將消耗35吉瓦(GW),相當(dāng)于35座核電站的典型發(fā)電量,這使得今天為如此龐大的數(shù)據(jù)中心供電變得不現(xiàn)實(shí)。即使是Rubin Ultra的集群也需要大約9.37吉瓦的電力。假設(shè)Feynman架構(gòu)使BF16/FP16的每瓦性能比Robin架構(gòu)翻了一番,一個(gè)50 ExaFLOPS集群仍將需要4.685 GW的電力,這遠(yuǎn)遠(yuǎn)超過了xAI的Colossus 2數(shù)據(jù)中心所需的1.4 GW-1.96 GW。這一需求將對美國當(dāng)前的能源基礎(chǔ)設(shè)施提出嚴(yán)峻的挑戰(zhàn)。


Magazine.Subscription.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 一本大道AV伊人久久综合| 亚洲精品nv久久久久久久久久| 青青操国产在线| 性刺激久久久久久久久| 亚洲一区二区三区久久| 皇后羞辱打开双腿调教h孕| 国产女人18毛片水真多18精品| 99精品视频免费观看| 日本加勒比一区| 亚洲性69影院在线观看| 精品伊人久久香线蕉| 国产大片黄在线观看| 91欧美激情一区二区三区成人 | 国产在线高清理伦片a电影| 99re热视频这里只精品| 成人综合伊人五月婷久久| 亚洲av无码精品色午夜果冻不卡 | 色播影院性播免费看| 国产精品久久久久久久久久免费| www.99色| 无码精品A∨在线观看无广告 | 91精品免费在线观看| 国产裸体舞一区二区三区| 一本伊大人香蕉在线观看| 日本卡一卡二新区| 亚洲午夜久久久久妓女影院| 男人好大好硬好爽免费视频| 国产va免费精品高清在线| 久久综合九色综合欧美就去吻| 在线天堂新版在线观看| 一级毛片女人18水真多| 日本特黄特色aaa大片免费| 亚洲人成电影院| 波多野结衣在线视频观看| 午夜毛片不卡免费观看视频| 饥渴难耐16p| 国产精品三级av及在线观看| 99无码精品二区在线视频| 巨胸喷奶水www视频网站| 久久99精品久久久久久首页| 日韩精品无码一区二区视频|