《電子技術應用》
您所在的位置:首頁 > 人工智能 > 業界動態 > Meta訓練Llama 3遭遇頻繁故障

Meta訓練Llama 3遭遇頻繁故障

16384 塊 H100 GPU 訓練集群每 3 小時“罷工”一次
2024-07-29
來源:IT之家
關鍵詞: META Llama3 H100GPU

7 月 28 日消息,Meta 發布的一份研究報告顯示,其用于訓練 4050 億參數模型 Llama 3 的 16384 個英偉達 H100 顯卡集群在 54 天內出現了 419 次意外故障,平均每三小時就有一次。其中,一半以上的故障是由顯卡或其搭載的高帶寬內存(HBM3)引起的。

0.png

由于系統規模巨大且任務高度同步,單個顯卡故障可能導致整個訓練任務中斷,需要重新開始。盡管如此,Meta 團隊還是保持了 90% 以上的有效訓練時間。

在為期 54 天的預訓練中,共出現了 466 次工作中斷,其中 47 次是計劃中斷,419 次是意外中斷。計劃內的中斷是由于自動化維護造成的,而意外的中斷則主要源于硬件問題。 GPU 問題是導致故障的主要原因,占意外中斷的 58.7%。其中只有三起事件需要大量人工干預,其余的由自動化管理。

0.png

在 419 個意外中斷中,148 個(30.1%)是由各種 GPU 故障(包括 NVLink 故障)引起的,而 72 個(17.2%)是由 GPU 的 HBM3 內存故障引起的。有趣的是,54 天內只有兩個 CPU 發生故障。41.3% 的意外中斷是由多種因素造成的,包括軟件錯誤、網絡電纜和網絡適配器。

為提高效率,Meta 團隊開發了一系列工具和優化策略,包括縮短任務啟動和檢查點時間、利用 PyTorch 的 NCCL 飛行記錄器診斷性能問題、識別拖后顯卡等。此外,Meta 還關注到了環境因素的影響,如午間溫度波動對 GPU 性能的輕微影響,以及巨量 GPU 同時運行對數據中心電網的巨大壓力。

然而,隨著人工智能模型參數量的不斷增加,所需的計算資源也隨之擴大。以 xAI 計劃中的 10 萬塊 H100 顯卡集群為例,故障率可能會成倍增長,給未來的 AI 訓練帶來更大的挑戰。


Magazine.Subscription.jpg

本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 日本口工h全彩漫画大全| 一区二区日韩精品中文字幕| 青青草原1769久久免费播放| 女人的精水喷出来视频| 亚洲欧洲日产国码www| 色一情一乱一伦一视频免费看 | 少妇人妻偷人精品一区二区| 亚洲综合AV在线在线播放 | 午夜在线社区视频| 91青青青国产在观免费影视| 最近免费中文字幕大全高清10 | 国产日韩av在线播放| 久久久久av综合网成人| 欧美牲交a欧美牲交aⅴ免费下载 | 国产成人亚洲综合无| 中文字幕日韩精品有码视频| 精品一区二区三区在线视频观看 | 亚洲伊人久久大香线蕉| 男女午夜爽爽大片免费| 国产一卡2卡3卡4卡网站免费| 亚洲综合久久一本伊伊区| 日产精品一致六区搬运| 亚洲综合色在线| 色一情一乱一伦黄| 国产成人爱片免费观看视频| 91精品国产91久久久久青草| 成人动漫h在线观看| 亚洲国产精品免费在线观看| 真实国产乱子伦沙发睡午觉| 国产一级一级毛片| 国产精品亚洲w码日韩中文| 成人动漫在线免费观看| 久久精品国产一区二区电影| 秦91在线播放第3集全球直播| 国产亚洲日韩欧美一区二区三区| yy11111光电影院手机版| 欧美一级视频在线观看欧美| 人妻在线无码一区二区三区| 国产xxxxx| 女神校花乳环调教| 久久99国产这里有精品视|