英偉達(NVIDIA)400億美元收購Arm的交易還未最終達成,但并不妨礙英偉達推出其首款基于Arm架構的數據中心CPU。今年的GTC 21依舊選擇了線上的方式,英偉達首席執行官黃仁勛還是在自家廚房介紹了AI、汽車、機器人、5G、實時圖形、協作和數據中心等領域的最新進展。
雖然還是穿著皮衣的黃教主,但他今年更具搖滾氣質。不僅推出了全球首款為terabyte 級別計算設計的 CPU Grace,還將英偉達的數據中心產品路線圖升級為GPU+CPU+DPU,只為提供10倍甚至更高的性能,保持其在AI領域的競爭力,也推動芯片行業的競爭進入”組合拳“時代。
不要忽略,作為一家系統公司,英偉達有更高遠的目標。
黃仁勛說:”NVIDIA正在為當今時代的每一位‘達芬奇’推進他們的各項研究工作,包括語言理解、藥物研發或量子計算等。英偉達將助力成就他們畢生的事業。“
1
英偉達首款數據中心CPU性能
提升一個數量級
英偉達發布的首款數據中心CPU叫做Grace,是以美國海軍少將、計算機編程先驅Grace Hopper的名字命名。雷鋒網了解到,Grace采用臺積電5nm工藝。
注意,Grace是一款高度專用型處理器,主要面向大型數據密集型HPC和AI應用。也就是說,絕大多數的數據中心仍將繼續使用現有的CPU,Grace主要將用于計算領域的細分市場,預計2023年可以供貨。
Grace在計算的細分領域可以實現數量級的性能提升。黃仁勛稱,基于Grace的系統與英偉達GPU緊密結合,性能將比目前最先進的NVIDIA DGX系統(在x86 CPU上運行)高出10倍。
Arm屬于精簡指令集,相比x86這樣的復雜指令集實現高性能的挑戰更大,英偉達分三步來實現超越x86 CPU的性能。
第一,Grace內置下一代Arm Neoverse內核,每個CPU能在SPECrate2017_int_base基準測試中分數超過300分,為Grace提供足夠的計算性能。
第二,有了足夠的計算性能,要滿足AI計算的需求,內存帶寬成為瓶頸。因此,Grace采用了新內存LPDDR5x技術,帶寬是LPDDR4的兩倍,能源效率提高了10倍。
第三,CPU和GPU之間的數據傳輸速度同樣限制了數據密集的AI計算,Grace采用第四代NVIDIA NVLink,可以實現從CPU到GPU連接速度超過900GB/s,相當于目前服務器14倍的帶寬。
從計算性能到解決帶寬問題,再到CPU和GPU的緊密結合,使得英偉達的Arm架構Grace可以實現10倍的性能提升,達到一個數量級的提升。
Grace對于英偉達而言,是保持其AI競爭力的關鍵。由于超大規模的模型很難完全放進GPU內存,如果存儲在系統內存,訪問速度則會大大受限,如果選用其它CPU供應商的產品,不能實現最高的性能優化。
自研一款CPU,不僅可以實現更高性能,未來的迭代,以及進行系統優化也更容易。同時,英偉達還能幫助Arm將優勢拓展到移動計算之外,無論是對英偉達自身還是Arm而言都是優選。
畢竟,黃仁勛對于達成收購Arm的交易持樂觀態度。在發布會后的電話會議上,黃仁勛表示目前收購工作在有序進行,相信監管部門會支持這筆收購,2022年會有積極正面的結果。
2
升級GPU+CPU+DPU三芯片系統公司
英偉達強勁的GPU加上最新發布的CPU Grace,再加上最新更新的Bluefield DPU,構成了英偉達最新的數據中心芯片路線圖。”我們每年都會發布激動人心的新品。三類芯片,逐年飛躍,一個架構。“黃仁勛表示。
數據中心路線圖包括CPU、GPU和DPU這三類芯片,而Grace和BlueField是其中必不可少的關鍵組成部分。每個芯片架構歷經兩年的打磨周期(周期內可能出現轉變),一年專注于 x86 平臺,另一年專注于 Arm 平臺。
”目前市場上每年交付的 3000 萬臺數據中心服務器中,有 1/3 用于運行軟件定義的數據中心堆棧,其負載的增長速度遠遠快于摩爾定律。除非我們找到加速的辦法,否則用于運行應用的算力將會越來越少。“黃仁勛說,”新時代的計算機需要新的芯片、新的系統架構、新的網絡、新的軟件和工具。“
顯然,英偉達推出自家的Arm架構CPU并非要與x86陣營的AMD和Intel爭奪市場,而是面向新興的細分市場,通過三種芯片的組合實現差異化,并保持競爭力。
GPU是英偉達AI領導力的基石,黃仁勛說:”只需一張 GeForce 顯卡,每個學生都可以擁有一臺超級計算機,這正是 Alex Krizhevsky、Ilya 和 Hinton 當年訓練 AI 模型 AlexNet 的方式。“
在今天的GTC上,英偉達還更新了DPU(Data processing unit,數據處理單元)。”現代超大規模云技術推動數據中心從基礎上走向了新的架構, 利用一種專門針對數據中心基礎架構軟件而設計的新型處理器, 來卸載和加速由虛擬化、網絡、存儲、安全和其它云原生AI服務產生的巨大計算負荷。BlueField DPU正是為此而生。“黃仁勛如此解釋。
去年10月,英偉達發布首代DPU BlueField-2,能夠卸載相當于30個CPU核的工作負載。今天發布的最新一代BlueField-3 DPU,是專為AI和加速計算設計,實現了10倍的性能提升,有16個Arm A78 CPU核,和4倍的加密速度,能夠替代300個CPU核,能以400Gbps的速率,對網絡流量進行保護、卸載和加速。
BlueField-3通過NVIDIA DOCA(集數據中心于芯片的架構)軟件開發包為開發者提供一個完整、開放的軟件平臺,新一代DPU預計將于2022年第一季度發布樣品。
包括黃仁勛在內的多位英偉達發言人曾不止一次表示,英偉達是一家系統公司。作為系統公司,軟件自然也是重點。
GTC 21上,黃仁勛發布了用于訓練Transformers的框架—— 英偉達Megatron。Transformers能夠生成文檔摘要、將電子郵件中的短語補充完整、對測驗進行評分、生成體育賽事現場評論、甚至生成代碼,已經幫助開發者在自然語言處理領域取得了突破性進展。
他還介紹了英偉達用于計算藥物研發加速庫Clara Discovery的一些新模型。
還有量子電路模擬器提供加速cuQuantum,目標是為加快有賴于量子位(或量子比特,能作為單個的0或1存在,也可以同時作為二者存在)的量子計算研究,幫助研究人員設計出更完善的量子計算機。
針對數據中心的安全,英偉達也推出了Morpheus數據中心安全平臺,基于英偉達AI、BlueField、Net-Q網絡遙測軟件和EGX而構建,能夠對完整的數據包進行實時檢測。
面向會話式AI,英偉達Jarvis已經可用,其能夠實現語音識別、語言理解、翻譯和表達性語音。雷鋒網了解到,Jarvis支持五種語言。
為加快包括搜索、廣告、在線購物等推薦系統的速度,黃仁勛宣布NVIDIA Merlin現可通過NGC(NVIDIA的深度學習框架容器目錄)獲取。
還有,為了幫助客戶將自身專業知識應用于AI領域,黃仁勛發布了NVIDIA TAO,可以運用客戶和合作伙伴的數據,對NVIDIA預訓練模型進行微調和適配,同時保護數據隱私。
3
英偉達的”三芯“時代
有了全新的數據中心芯片路線圖,匹配豐富的軟件,英偉達能做什么?
首先是獲益的就是數據中心。黃仁勛透露,基于今天新發布的Grace CPU以及下一代GPU,瑞士國家超級計算中心、蘇黎世聯邦理工大學將構建一臺名為阿爾卑斯的超級計算機,算力 20Exaflops(目前全球第一超算富岳的算力約為0.537Exaflops),將實現兩天訓練一次GPT-3模型的能力,比目前基于英偉達GPU打造的 Selene 超級計算機快7倍。
另外,美國能源部下屬的洛斯阿拉莫斯國家實驗室也將在2023年推出一臺基于Grace 的超級計算機。
更進一步,英偉達可以擴展Arm從云到邊緣的市場,包括將基于AWS Graviton2的Amazon EC2實例與NVIDIA GPU相結合;通過新HPC開發者套件,為科學和AI應用的開發提供支持;提升邊緣視頻分析和安全功能;打造新一類基于Arm并搭載NVIDIA RTX GPU的新款PC。
除了在高性能計算市場,英偉達的三芯片組合也能提升其在自動駕駛汽車市場的競爭力。基于英偉達新一代GPU架構、全新Arm CPU以及深度學習和計算機視覺加速器,黃仁勛推出了新一代面向自動駕駛汽車的NVIDIA DRIVE Atlan,該處理器性能最高達每秒超過1000萬億次(TOPS)運算,約是上一代Orin處理器的4倍,超過了絕大多數L5無人駕駛出租車的總計算能力。
DRIVE Atlan SoC也集成BlueField DPU,可以支持自動駕駛汽車中的復雜計算和AI工作負載。預計DRIVE Atlan將搭載在多家汽車制造商的2025年車型上。
”對于汽車而言,更高的算力意味著更加智能化,開發者們也能讓產品更快迭代。TOPS 就是新的馬力。“黃仁勛說。
不僅如此,英偉達還推出了Hyperion 8 AV平臺,這是一個先進的數據采集、開發和測試平臺,包含參考傳感器、自動駕駛汽車和中央計算機、3D地面真實數據記錄儀、網絡以及所有必要的軟件。
不難發現,面向AI、數據中心、自動駕駛這些新興市場,再強大的單芯片也很難滿足需求,因此,英偉達將其數據中心芯片路線圖升級為GPU+CPU+DPU,匹配的豐富軟件,進行系統優化,能夠幫助英偉達保持領先地位。
4
小結
對于以GPU見長的英偉達發布CPU,許多人可能會表示驚訝。其實,去年以CPU見長的英特爾也發布了自研GPU。AMD也在擁有CPU和GPU的基礎上要收購FPGA。巨頭們都做出了相同的選擇,意味著的是芯片行業的競爭已經進入了新的階段,靠單一的芯片已經很難滿足AI、5G、自動駕駛等應用的需求,組合拳以及系統優化是未來的重點。
英偉達的優勢在于,通過GPU+CPU+DPU的產品組合,能夠最大程度維持其在AI領域優勢,加上軟件和系統的優化,更好地滿足新興應用的需求,在新的市場占據領導力,而非與競爭對手搶奪已有的市場。比如,用英偉達Omniverse創建共享虛擬3D世界。