近日,DeepSeek宣布其新一代模型DeepSeek-V3.1采用了UE8M0 FP8 Scale參數精度,并明確指出該精度標準是針對即將發布的下一代國產芯片設計。這一消息迅速在資本市場引發強烈反應,寒武紀等芯片類上市企業股價集體拉升。
不過,在近兩日舉辦的2025算力大會上,據《科創板日報》記者的現場采訪和觀察來看,大家在聚焦國產算力時,DeepSeek的FP8精度標準雖被討論,但業內人士的情緒顯然沒有資本市場那么高亢。技術派更關注FP8在模型訓練、推理及生態標準化上的實際價值與挑戰。
FP8是什么,有哪些提升?
在AI訓練與推理過程中,為提升計算效率,數值精度的降低是一個常見的技術路徑。
摩爾線程AI Infra總監陳志向《科創板日報》記者稱,過去,大模型訓練推理普遍使用FP32(32位浮點數),隨后逐步過渡到FP16(16位浮點數)混合精度,以減少存儲和通信開銷,FP8則進一步將數據寬度壓縮至8位。
“FP8最直接的優勢是算力效率翻倍,另一個好處是降低降低訓練和推理過程中網絡帶寬的通信量。”陳志稱,比如原本傳輸一個FP32數值需4字節,現在僅需FP8僅需要1字節,雖然網絡物理帶寬本身未必擴大,但單位時間內可傳輸信息是增加的,同時也讓存儲要求降低。這意味著在相同功耗下,AI芯片可訓練更大的模型或縮短訓練時間。
不過,FP8也不是萬能的。
在2025算力大會現場,另一名不愿具名的國產芯片廠商從業人員告訴《科創板日報》記者,用類似FP8低精度訓練推理雖然快,但也容易因數值范圍太小導致計算出錯。而且,不同計算對精度要求不同,像矩陣乘法這類操作對精度不敏感,可以用較低的精度(如FP8)計算;而像累加或某些函數則需要較高精度。因此,業內通常采用“混合精度訓練”,根據計算類型動態選擇不同的精度,兼顧效率與準確。
Deepseek能否推動新標準
DeepSeek-V3.1使用UE8M0 FP8 Scale 的參數精度,被視為國產AI芯片即將邁入新階段的信號。受此刺激,寒武紀等芯片類上市公司股價大幅上漲,但產業界人士態度更為審慎。
在業內看來,DeepSeek此舉無疑給了國內算力廠商的機會,FP8代表了算力優化的正確方向,大模型訓練推理不只是堆砌硬件,但它也并非“靈丹妙藥”,更需要關注的是實際落地效果。此外DeepSeek的這一動作,后續是否會成為大模型訓練與推理的新標準。
在陳志看來,大模型對精度的容忍度越來越高,從FP32到FP16,再到FP8,是整個行業逐步驗證過的路徑。DeepSeek這次驗證了FP8在大規模模型上的可行性,未來在FP8這一標準乃至更高精度上去做研究或者做訓練也是一個很重要的方向。
當然,這一趨勢也意味著,國產算力生態需要同步升級,包括芯片、框架、算力平臺到應用層的閉環適配。
陳志表示,精度標準一旦變化,上下游廠商也需要聯動優化。摩爾線程已提前布局FP8研究,既是技術儲備,也是為了在生態調整中占據主動。
他進一步說到,大模型訓練推理的核心瓶頸不僅是算力規模,還包括能耗、穩定性和集群利用,“國內萬卡規模集群已有部署,但還要向大智算集群演進,解決效率與容錯問題,確保集群可靠性。簡單‘堆卡’并不能完全滿足需求,提高單卡效率與集群調度優化同樣關鍵”。