1、芯片是軟件定義汽車生態發展的基石
在智能網聯汽車產業大變革背景下,軟件定義汽車理念已成為共識。傳統汽車采用 的分布式 E/E 架構因計算能力不足、通訊帶寬不足、不便于軟件升級等瓶頸,不能滿足 現階段汽車發展的需求,E/E 架構升級已成為智能網聯汽車發展的關鍵。
汽車 E/E 架構升級主要體現在:1)硬件架構升級。由分布式 ECU 向域控制/中央 集中架構方向發展。好處在于:提升算力利用率,減少算力設計總需求;數據統一交互, 實現整車功能協同;縮短線束,降低故障率,減輕質量。2)軟件架構升級。通過 AutoSAR 等軟件架構提供標準的接口定義,模塊化設計,促使軟硬件解耦分層,實現軟硬件設計 分離;Classic AutoSAR 架構逐步向 Classic AutoSAR 和 Adaptive AutoSAR 混合式架構方 向發展。好處在于:可實現軟件/固件 OTA 升級、軟件架構的軟實時、操作系統可移植;采集數據信息多功能應用,有效減少硬件需求量,真正實現軟件定義汽車。3)通信架構 升級。車載網絡骨干由 LIN/CAN 總線向以太網方向發展。好處在于:滿足高速傳輸、 高通量、低延遲等性能需求,同時也可減少安裝、測試成本。
從博世對 E/E 架構定義來看,硬件架構的升級路徑表現為分布式(模塊化→集成 化)、域集中(域控制集中→跨域融合)、中央集中式(車載電腦→車-云計算)。即為分 布式 ECU(每個功能對應一個 ECU)逐漸模塊化、集成向域控制器(一般按照動力域、 底盤域、車身域、信息娛樂域和 ADAS 域等),然后部分域開始跨域融合發展(如底盤 和動力域功能安全、信息安全相似),并發展整合為中央計算平臺(即一個電腦),最后 向云計算和車端計算(中央計算平臺)發展。其中車端計算主要用于車內部的實時處理, 而云計算作為車端計算的補充,為智能汽車提供非實時性(如座艙部分場景可允許微秒 級別的延遲)的數據交互和運算處理。
硬件架構升級驅動芯片算力需求呈現指數級提升趨勢。傳統汽車功能簡單,與外界 交互較少,常為分布式 ECU,主要為控制指令運算(約為百萬條指令每秒)、無 AI 運算 能力、存儲較??;智能網聯汽車,不僅需要與人交互,也需要大量與外界環境甚至云數 據中心交互,未來將面臨海量的非結構化數據需要處理,車端中央計算平臺將需要 500+ 百萬條指令/秒的控制指令運算能力、300+TOPS(即為 300*1012 次每秒)的 AI 算力。
智能網聯汽車四大核心技術:芯片、操作系統、算法、數據共同形成生態閉環,芯 片是智能網聯汽車生態發展的基石。類比手機產業鏈,我們認為芯片/操作系統或成為寡 頭壟斷格局,而從當下行業發展看,芯片或格局相對較為穩定,且處在產業核心位置。
2. 汽車處理芯片由 MCU 向 AI 芯片方向發展
半導體可分為模擬芯片、數字芯片、OSD 三大類。模擬電路是指處理模擬信號的電 子電路。模擬信號具有連續性,信號傳播的信息包含在幅度、頻率、相位的變化上,常 應用于放大信號,信號源兩方面。數字電路是指處理數字信號的電子電路。數字信號以 二進制邏輯代數為基礎,實現簡單,系統可靠,具有算數運算和邏輯運算的功能。OSD 包括光電器件、傳感器、分立器件三個細分類型。
2.1. 汽車數據處理芯片運算由控制指令向 AI 運算方向發展
現階段,汽車芯片市場上對汽車數據處理芯片分類有按三類:1)智能運算為主的 AI 芯片;2)算力較強的主 CPU;3)算力較弱的 MCU(仍可視為 CPU)。也有按兩類:1)智能運算為主的 AI 芯片;2)CPU 運算為主的 MCU。為了便于理解,主 CPU 和 MCU 的主要玩家都是同一類,而且 CPU 與 MCU 本質均為控制指令運算,因此我們采用第二 種分類方法。
汽車芯片由以控制指令運算為主的 MCU 向智能運算為主的 AI 芯片方向發展。1) 控制指令運算可執行如等待指令、停機指令、空操作指令、中斷指令等,其運算單位為 DMIPS:即 Dhrystone MIPS 測試下,計算能力為百萬條指令/秒,一般通用芯片常用其 表示,如傳統汽車電子的 MCU 等,代表廠商如英飛凌、瑞薩、恩智浦等。2)AI 矩陣 運算常指對矩陣運算做加速的能力,對應用于圖像、視頻等非結構化數據的運算處理的 情況下,單位功耗將更低,計算速度更快,其運算單位為 TOPS、Tflops,均指每秒運算 1012 次。TOPS:指數據類型為整數型,常用于自動駕駛等領域,代表產品如華為昇騰系 列芯片、地平線征程系列芯片、寒武紀的 MLU 系列芯片等。Tflops:指數據類型為單精度浮點數,較整數型數據精度更高,通用 AI 芯片常用它表示,常用于如核實驗室運算、 分子動力學運算等,代表產品如英偉達的 GPU 芯片。
在智能網聯汽車領域,Int8 數據類型精度即可滿足現階段 AI 運算要求。Int 8 和 FP32 分為定點數和浮點數,小數點的位置是固定的,則為定點數,小數點的位置是浮動 的,則為浮點數。Int8 代表 8 個字節,此外,還有 int4,int16 等字節數越高,計算精度 會提升,但占用存儲增多,會降低計算速度,所以為保證滿足數據精度和運算速度,常 用 Int8 數據類型,單位為 TOPS(即 1012次/秒)。
汽車芯片結構形式由 MCU 向 SOC 異構芯片方向發展。汽車數據處理芯片按應用 可分為 MCU(微控制器)、SoC(System on Chip 系統級芯片)。MCU 結構簡單,可視 為簡化版本的 CPU,其將 CPU 的頻率和規格適當縮減,并將內存、計數器、IO 接口、 I/D 轉換等結構都整合到單一芯片,形成芯片級的計算機,主要用于汽車執行端 ECU 中 進行控制指令運算。
SoC 是一顆系統級芯片,常由 CPU+GPU+DSP+NPU+各種外設接 口、存儲類型等電子元件組成,現階段主要應用于座艙 IVI、域控制等較復雜的領域。SOC 較 MCU 集成程度更高,常集成 AI 處理單元,功能更復雜。SOC 芯片:1) 硬件集成規模更為龐大,提升資源利用效率。常額外集成音頻處理 DSP/圖像處理 GPU/ 深度學習加速單元 NPU 等,單顆芯片上集成更多的配套電路,減小了面積,提升資源 利用率,片上互聯利于集成電路之間的高速互通互聯。2)芯片上軟件配套更大,提升處 理效率。SOC 芯片上有豐富的軟件配套(工具鏈、編譯器等),提升了處理效率。3)可 支持多任務的復雜系統。但并非所有的 SOC 芯片均為 AI 芯片,需集成一定規模的時 間網絡單元才是 AI 芯片,如華為昇騰芯片、地平線征程芯片、寒武紀 MLU 芯片、特斯 拉 FSD 均為此類芯片。
2.2. ARM 內核提供芯片控制指令運算能力
CPU 架構可分為 X86 為代表的復雜指令集架構,和 ARM 為代表的精簡指令集架 構。汽車 CPU 架構主要為 ARM 架構,在 MCU 和 SOC 中擔任控制指令運算。CPU 架 構可分為 CISC(復雜指令集)架構和 RISC(精簡指令集)架構。1)復雜指令集指令可 變格式,包括 8、16、32、64 位,其特點是單指令功能強大且復雜,指令執行周期長, 可以直接操作內存,常見的復雜指令集如 X86,代表企業 intel、AMD。2)精簡指令集 的特點是單指令功能簡單、執行速度快,編譯效率高,不能直接操作內存,常見的精簡 指令集有 ARM、MIPS、OpenRISC 以及 RSIC-V 等,代表企業:ARM。ARM 處理器內 核廣泛用于嵌入式系統,具有執行效率高,低成本等優點。
ARM Cortex 系列主要分為 A、R、M 三類。1)Cortex-A 系列:常集成于 SOC 中, 面向性能密集型系統的應用處理器內核,帶寬多為 64/32 位,主頻可達 GHz 級別 (1GHz=103MHz),當主頻達到 1GHz 時,其單核控制指令算力為幾千 DMIPS(DMIPS 即為百萬條指令每秒),多用于汽車座艙娛樂信息系統或 ADAS 領域;2)Cortex-M 系 列:常集成于 MCU 中,主要面向各類嵌入式應用的微控制器內核,主頻為幾十-幾百 MHz 級別,其單核控制指令算力為幾十至幾百 DMIPS,多用于汽車執行端控制領域;3)Cortex-R 系列面向實時應用的高性能內核,介于 A 與 M 之間。
2.3. AI 處理器提供芯片智能運算能力
AI 處理器可分為云端處理器、邊緣端處理器、終端處理器。1)云端 AI 處理器, 支持 Int8 定點運算或 FP16、FP32 浮點運算,支持深度學習推理/訓練要求,主要應用 于政府、企業數據中心的服務器中,如服務金融業、航空航天、氣象預報、宇宙演化模 擬以及抗震分析等領域計算。此外在未來 5G 應用,更多的汽車數據會傳送到車企數據 中心用來訓練模型,實現軟件、算法的優化。2)邊緣端 AI 處理器,Int8 定點運算,支 持深度學習推理要求,主要應用于工控機、安防攝像頭、機器人、汽車車端等領域,由 于所搭載設備的電力資源有限,能效比高(算力/功耗,值越高越經濟)、接口豐富等是 關鍵。3)終端 AI 處理器主要支持深度學習推理功能,主要應用于手機等移動終端,如 華為麒麟系列芯片。未來云邊端三類處理器并非競爭關系,而是未來會進一步協同發展, 云端訓練模型實現算法軟件的優化,并提供給邊緣/終端進行本地化 AI 運算。
車端 AI 處理器現階段主要負責深度學習的推理任務。智能算法范圍由大至小依次 為:人工智能、機器學習、深度學習、神經網絡。應用場景越少,對應需要的實現的算 法越少,就越適用于專用芯片,可通過精簡處理器軟硬件模塊,使處理器計算效率、能 效比更高。
2.4. 車規級芯片條件苛刻
車規級芯片標準遠高于消費級,認證流程長。1)工作環境更為惡劣:相比于消費 芯片及一般工業芯片,汽車芯片的工作環境溫度范圍寬(-40 至 155 攝氏度)、高振動、 多粉塵、多電磁干擾。2)可靠性安全性要求高:一般的汽車設計壽命都在 15 年或 20 萬 公里左右,遠大于消費電子產品壽命要求。在相同的可靠性要求下,系統組成的部件和 環節越多,對組成的部件的可靠性要求就越高。3)車規級芯片認證流程長。一款芯片一 般需要 2 年左右時間完成車規級認證,進入車企供應鏈后一般擁有 5-10 年的供貨周期。
汽車標準需認證可靠性標準 AEC-Q 系列、質量管理標準 ISO/TS16949 其中之一, 此外需要通過功能安全標準 ISO 26262 ASIL B(D)。ISO 26262 在 2011 年 11 月 15 日正 式發布,主要包括四個等級,分別為 ASIL A/B/C/D。ISO 26262 安全是汽車電子元件穩 定性優劣的評判依據之一,通過該等級代表其產品穩定性合格,耐用,但不代表其算力、 能效比高。此外,還需要通過零失效的供應鏈質量管理標準 TS16949/ISO 9000 國際認證 體系下的汽車行業分支的標準認證;另一個是 AEC-Q 認證,由克萊斯勒、通用、福特制定的汽車電子元件安全性檢測標準。
3. MCU 引領汽車由機械化時代走向電氣化時代
3.1. MCU 承擔汽車執行 ECU 的運算大腦
汽車發展初期,控制功能較少,一般新增一個功能便新增一個 ECU(Electronic Control Unit,即電子控制單元),即為典型的分布式電子電氣架構。因此,一般汽車中 包括多個 ECU,每個 ECU 管理不同的功能,而 MCU 芯片嵌入在 ECU 中作為運算大 腦。MCU 的工作過程:傳感器輸入信號,輸入處理器對信號進行模數轉換、放大等處 理后,傳遞給 MCU 進行運算處理,然后輸出處理器對信號進行功率放大、數模轉換等, 使其驅動如電池閥、電動機、開關等被控元件工作。MCU 主要有 8 位、16 位、32 位, 位數越多越復雜,處理能力越強,可實現的功能越多。
MCU 單車價值量提升的核心邏輯在于:1)芯片用量提升,應用領域由傳統底盤延伸至整車。隨著汽車電子化發展,ECU 逐漸占領整個汽車,從防抱死制動系統、四輪驅 動系統、電控自動變速器、主動懸架系統,到現在逐漸延伸到了車身各類安全、網絡、 娛樂控制系統等領域。2)芯片集成復雜化,單價提升。以發動機管理系統 ECU(MCU 為其核心芯片)為例,汽車電子發展的初期,ECU 最早僅應用于發動機的控制,如汽車 發動機的排氣管(氧傳感器)、氣缸(爆震傳感器)、水溫傳感器等核心部件才會放置傳 感器,數量少。之后隨著國三至國五標準的提升,在油耗控制、信號輸出控制等方面需 要芯片處理的能力增強,推動 MCU 芯片集成度提升,產品升級帶來價值提升。
3.2. 預計 2025 年我國汽車 MCU 市場達 32.9 億美元,CAGR 7.7%
2025 年我國汽車 MCU 市場規模達 32.9 億美元,未來 6 年 CAGR 為 7.7%。經測 算,2019 年我國汽車 MCU 市場規模為 21.1 億美元,同比-2.7%,隨著汽車智能化加速, 更多的功能將會被整車搭載,大量執行元件需要被 MCU 所控制,到 2025 年 MCU 市場 規模達 32.9 億美元,CAGR 為 7.7%,到 2030 年將達 47.6 億美元。
3.3. 汽車 MCU 行業加快整合集中度提升
全球 MCU 通用市場并購加速。我們重點參考 MCU 通用領域(汽車、工業、消費 電子等)市場,MCU 廠商為爭奪市場份額,近年來發生了數起大規模并購。NXP 在 2015 年以 118 億美元收購飛思卡爾,完成了在汽車電子領域的布局,排名也一舉從第六上升 至第一;Cypress 在 2015 年以 40 億美元收購 spansion;Microchip 在 2016 年完成對 Atmel 的收購,成為全球第二大 MCU 廠商。我們判斷,汽車 MCU 市場也將隨通用市場的加 快整合,實現集中度的提升。
歐美日前五大汽車 MCU 供應商占據全球 82.7%市場份額,頭部集中效應顯著。根 據 Stratety Analytics 分析數據,全球汽車 MCU 市場前 5 占 82.7%的市場份額,前五大 MCU 供應商分別為日本瑞薩電子,歐洲:NXP、英飛凌,美國:德州儀器、微芯科技。
全球前八大廠商也同樣占據我國汽車 MCU 93%的市場份額。仍由歐美日傳統汽車電子廠商占據絕大部分市場份額,我們重點參考 IHS 數據分析,目前中國 MCU 市場, 前八大 MCU 廠商的市場占有率達到 93%。國產化率不足 5%,替代空間大。國內企業 技術較為薄弱,企業規模與前八大廠商差距較大,現階段主要為工業控制、儀器儀表、 消費電子、物聯網等通用領域供貨。隨著國內企業技術逐漸成熟,國內廠商憑借價格和 服務優勢,正逐步搶奪低端 MCU 市場,進口替代趨勢逐漸明顯。但由于車規級標準較 高,技術和市場發展均晚于一般工業和消費級芯片。
4. 軟件定義汽車時代來臨,域控制 AI 芯片是重要一環
4.1. AI 芯片是智能汽車時代實現域控制的核心
汽車由分布式架構向域控制/中央集中式架構方向發展。傳統分布式硬件架構面臨 智能汽車時代多維感知需求和海量非結構化數據處理的需求,一般每新增一個應用功能, 便新增對應的感知傳感器、決策、執行層。隨著智能網聯汽車時代的到來,以特斯拉為 代表的汽車電子電氣架構改革先鋒率先采用中央集中式架構,即用一個電腦控制整車。全球范圍內各大主機廠均已認識到軟件定義汽車的大趨勢,紛紛升級自身的電子電氣架 構,雖不同主機廠采用幾個電腦控制整車的方案不同,但架構域控制/集中化方向相同。域控制器逐漸集成前期的傳感器處理器、數據融合、路徑規劃、決策等諸多運算處理器 功能,因此對域控制器芯片算力需求大幅提升。
非結構化數據導致傳統 MCU 不能滿足需求,AI 作為協處理器逐漸成為智能時代 的核心。隨著芯片需要處理傳感器傳來的大量汽車內外部環境信息,而且也要處理大量 圖片、視頻等非結構化數據,面向控制指令運算的 MCU 不能滿足需求。AI 處理器作為 智能時代的協處理器,成為智能汽車時代的核心。一般待處理數據信息會先傳遞給 CPU(等同于 MCU),CPU 發現有大規模的非結構化數據,自身無法處理,便將其傳輸給 AI 處理器運算,而 CPU 便暫停運算,等待 AI 處理器運算結束后,再進行下一步操作, 所以 AI 處理器是人工智能時代的協處理器,是現階段智能汽車時代運算的核心。
4.2. 預計 2025 年我國汽車 AI 芯片市場超 91 億美元,CAGR46.2%
假設:1)汽車市場容量預測。如前文 MCU 測算假設一致,我國汽車產量 2019-2025 年復合增速為 2%。
2)各級別自動駕駛滲透率預測。L3、L4 級分別于 2020 年、2023 年規模量產,每 年并以 3-4%滲透率提升。根據工信部發布的《汽車中長期發展規劃》指出,我國 2020 年自動駕駛滲透率達 50%,2025 年滲透率達 80%。L3 級于 2020 年開始量產并規模投 放市場,滲透率快速提升,隨著 L4 級車于 2023 年開始量產,低級別滲透率陸續到達滲 透率峰值后又緩慢下降。
3)各級別自動駕駛 AI 芯片單車價值預測。2020 年 L1-L3 級 AI 芯片單車價值分別 為 50 美元、150 美元、500 美元,隨著技術逐漸成熟,2030 年下降到 41 美元、111 美 元、315 美元。我們預計到 2023 年 L4 級高級自動駕駛出現,AI 芯片單車價值約為 1500 美元,到 2030 年下降到 931 美元。
2025 年我國 AI 芯片市場超 91 億美元,未來 6 年復合增速達 46.4%。經測算,2020 年我國汽車 AI 芯片市場規模為 15 億美元,同比增長 59.4%,隨著汽車 EE 架構加速升 級,域控制器/中央計算平臺被廣泛使用,到 2025 年 AI 芯片市場規模達 91 億美元, CAGR 為 45.9%,到 2030 年將達 177 億美元,十年復合增速 28.1%。
4.3. 集成更多 AI 單元是智能芯片技術路徑發展的大趨勢
CPU,又稱中央處理器,擅長邏輯控制和通用類型數據運算,具有不可替代性。CPU 有很強的通用性,可處理不同的數據類型,主要負責順序控制、操作控制、時間控制、 數據加工等操作,因此在任何一個電腦或嵌入式的計算中都有 CPU 或其裁剪版本。CPU 由控制器(Control),寄存器(Cache、DRAM)和邏輯單元(ALU)構成,其中控制器 和寄存器占比較大,而處理數據的邏輯單元占比較小,因此對于專用領域數據處理能力 較弱。代表廠商即為 X86 處理器的英特爾和嵌入式處理器的 ARM。
GPU,又稱圖形處理器,俗稱顯卡,擅長大規模并行計算。GPU 擁有計算單元數量 眾多和超長的流水線,處理的數據類型通常為高度統一的、相互無依賴,省去了大量 CPU 的不必要控制指令計算模塊,并行計算能力較 CPU 強。隨著人工智能的發展,GPU 不 斷被應用于數值模擬、機器學習、視覺處理、語音識別等領域,廠商代表即為英偉達。
FPGA 全稱是 Field Programmable Gate Array:又稱可編程邏輯門陣列,算力較 高,適合小規模定制化開發測試。用戶可通過燒入配置文件來定義其內部結構的連線, 從而達到定制電路的目的。FPGA 的芯片量產成本較高,能效比較差,不如 ASIC 專用 芯片。適用于科研、企業開發階段,一旦方案確定,其成本優勢就不再突出。代表廠商:賽靈思、阿爾特拉(被英特爾收購)、深鑒科技。
ASIC 全稱是 Application-Specific Integrated Circuit:是一種為專門目的而設計的 集成電路,具有算力最高,能效比優等特點。ASIC 面向特定用戶的需求,適合較為單 一的大規模應用場景,運行速度在同等條件下比 FPGA 快。但在架構層面對特定智能算再適用,需要跟新換代。面對現階段,AI 算法日新月異,每年都有大量的算法被開發出 來,對于自動駕駛領域適用性不強。所以現階段并沒有真正意義上的 ASIC 芯片。
N-SOC,(即添加神經網絡單元的系統級芯片)是指在芯片中集成更多的神經網絡 單元,以實現快速的 CNN(卷積神經網絡)運算。N-SOC 是現階段市場的新名詞,主 要系隨著 AI 芯片的發展,傳統定義方法并不完全適用,N-SOC 區別于 ASIC 的智能算 法被硬化,但其并不是一顆完全通用芯片,僅支持少量的算法。典型的代表企業:英特 爾旗下的 Mobileye、華為(達芬奇架構 Ascend 系列)、寒武紀(MLU 系列)、百度(昆 侖云)、阿里平頭哥、Google(TPU)等。
由通用向專用排序依次:CPU、GPU、FPGA、ASIC;數據處理成本經濟性(由優 至差):ASIC、FPGA、GPU、CPU。1)CPU 最通用,算力差,能效比最差,但除了運 算,還包括控制指令,不可被替代;2)GPU 為較為通用的芯片,算力高,架構較為開 放,可允許主機廠基于底層硬件架構開發自己的專門算法,但能效比較差;3)FPGA, 算力一般,可根據客戶需求用配置文件更改芯片結構的連線,實現定制電路,適用于實 驗室科研、前期開發等小批量應用;4)ASIC 為專用芯片,算力高、能效比優,節約不 必要開發資源,規模量產成本最低,但支持算法不夠靈活。
AI 芯片通過添加神經網絡單元實現 AI 運算的更高效。目前市場對未來汽車 AI 芯 片采用通用 GPU、FPGA、ASIC 芯片方案仍有較大爭議,我們認為汽車數據處理芯片不 斷異構化,通過不斷添加神經網絡單元實現 AI 運算是未來發展的主要方向。除了華為、 地平線、寒武紀等 AI 芯片不斷增加神經網絡單元外,而作為通用 GPU 的代表供應商英 偉達的自動駕駛系列芯片,也通過添加神經網絡單元,以實現對 AI 處理越來越高效。但總體而言 GPU 仍功耗較高,豐富的通用模塊可實現對各種場景的適用性,但也帶來 了成本過高,功耗過高的問題。而新出現的 N-SOC 雖不是 ASIC 固定算法,具有成本/ 功耗較低等優點,但其針對各種場景的適應性仍較弱。在汽車領域,未來兩者未來性能、 成本等方面會有相互靠近的趨勢。
5. 域控制器 AI 芯片呈現三強多極競爭格局
結論:特斯拉 FSD 芯片自研自用,引領產業發展,屬于獨立一級;全球 GPU 領域 AI 龍頭英偉達和背靠英特爾的汽車 AI 芯片龍頭 Mobileye 屬于第一陣列;華為技術強 勁自建生態體系屬于 1.5 陣列,有望快速突圍進入第一陣列;國內智能駕駛 AI 芯片新 銳地平線、云邊端全領域覆蓋 AI 新興寒武紀等處于第二陣列;傳統汽車電子廠商及其 他潛在進入者處于第三陣列
特斯拉自研 FSD 方案屬于另一極。主要優勢:由于其自研自用,根據需求研發專 用芯片,減少不必要的軟硬件模塊,1)縮短研發周期,減少研發設計工作量;2)提升 能效比;3)用戶數據驅動研發優化。主要劣勢:1)生態較為封閉,僅內部開發和使用, 無法建立完善的生態體系。2)若使用量有限,芯片研發需要投入大量資金,軟硬件開發 的成本難以通過大規模使用均攤成本。
Mobileye 與英偉達屬于第 1 陣列。在 L3 級到來以前,兩公司產品幾乎不會處于正 面競爭,隨著自動駕駛進程加速發展,競爭會逐漸加劇。短期來看,Mobileye 面向 L3 級以下市場,產品更加成熟,會更占優勢。中長期來看,英偉達面向 L3 級以上預研市 場在 AI 領域實力深厚,后發有力,優勢會更加突出。
NIVIDA 屬于第 1 陣列,作為通用 AI 芯片龍頭,占據 L3 級及以上市場,對外提 供芯片級產品,而非芯片+算法的解決方案,是合資品牌的優選。主要優勢:1)中立第 三方,最豐富的生態體系。定位 Tier 2 芯片供應商,提供芯片或開發平臺,具備最完善的軟件工具鏈和應用生態;2)算力高(但利用率仍有待提升),Xaier 芯片的 30TOPS 高 于 Eye Q4 的 2.5TOPS,Orin 芯片的 200TOPS 高于 Eye Q5 的 24TOPS;3)支持各類傳 感器數據融合,可提供攝像頭+雷達等各類傳感器數據融合處理;4)提供云服務,有望 獲取數據實現優化。主要劣勢:主要系 GPU 通用芯片,有大量的非必要軟硬件模塊, 1)成本價格較貴,浪費資源,后續有望規模量產后實現快速下降;2)能效比差,后續 產品開發加入更多的 DLA 深度學習加速器模塊,能效比有望改善。
Mobileye 屬于第 1 陣列,背靠英特爾,占據 L2 級及以下市場,芯片+算法綁定的 一體式解決方案。主要優勢:1)經驗豐富&質量可靠,產品已經有眾多量產車搭載,質 量和適配過關;2)客戶資源最豐富,國內外絕大多數主機廠和 Tier1 級供應商均為其客 戶;3)價格較為合理。主要劣勢:1)算力提升明顯低于其他廠商,最新 EyeQ5 算力峰 值僅 24TOPS,而市場認為 L3 級算力需求 30TOPS 以上,后期芯片僅靠提升 VMP 等手 段,算力提升或難以為繼,又或者因為高度定制化針對視覺領域,減少不必要的軟硬件 資源,算力不高但性能仍滿足需求;2)黑盒子模式限制用戶創新,算法和芯片捆綁銷 售,或與廠商規模較小,為客戶提供定制化服務,在主機廠軟件開發能力較差的初期階 段受廣泛歡迎,但隨著開發能力提升,一體銷售的靈活度較差,客戶難以做出差異性產 品。根據規劃 Eye Q5 或將開放融合算法,但感知算法并未提及。
華為屬于第 1.5 陣列,憑借強勁的技術實力有望快速進入第一陣列,主要針對 L2+ 及以上市場,模式與 NVIDIA 類似,現階段對外提供平臺類產品(開發平臺),而非解 決方案,是國產品牌的優選。主要優勢:1)算力高,能效優,計算平臺可提供 64~350TOPS, 端到端 1TOPS/W(芯片級 2TOPS/W);2)支持各種傳感器融合處理;3)華為整體技術 雄厚,生態體系有望迅速完善,依托華為從底層芯片、操作系統、應用算法、5G、云計 算服務等迅速建立豐富生態體系;4)提供云服務,有望獲取數據實現優化。主要劣勢:1)無量產車,缺乏相關的經驗積累,暫時無數據優化軟件算法,搭載量產車或到 2021 年底左右;2)現階段生態體系仍弱于英偉達,所以目前華為廣交朋友圈,依靠眾多領域 的優勢構建龐大生態體系;3)客戶對其“不造車”尚持懷疑,或影響合作。
地平線屬于強勢第 2 陣列,模式與 Mobileye 類似,對外主要提供解決方案類產品 (芯片+算法),未捆綁銷售,AI 芯片于 2020 年已搭載在長安 UNI-T 座艙域。自動駕 駛域芯片尚未搭載量產車,現階段主要針對 L2 級及以下市場,對外提供芯片+算法方 案。主要優勢:1)作為中立第三方,芯片和算法可分開銷售或一體式解決方案,受客戶 信任;2)國產芯片,國內優選。主要劣勢:1)現階段算力較低,無豐富生態,創企等;2)尚未通過功能安全認證,無自動駕駛芯片量產車。
寒武紀屬于第 2 陣列,或從車路協同、云服務(數據中心)等領域實現快速切入。主要優勢:1)云邊端三類產品可從各種商業模式供應給智能車產業領域,云端產品可 供應車企/Tier 1 數據中心或提供給云服務供應商;邊緣端產品供應給政府類客戶用于車 路協同設備使用;邊緣/終端產品供應給主機廠等。2)國產芯片,國內優選、中立第三方。主要劣勢:1)與車企合作較少,無豐富生態,創企等;2)尚未通過功能安全認證。
5.1. 特斯拉:自研 FSD 芯片,引領產業發展
總結:特斯拉自研 FSD 方案屬于另一極。主要優勢:由于其自研自用,根據需求 研發專用芯片,減少不必要的軟硬件模塊。1)縮短研發周期,減少研發設計工作量;2) 提升能效比;3)用戶數據驅動研發優化。主要劣勢:1)生態較為封閉,僅內部開發和 使用,無法建立完善的生態體系。2)若使用量有限,芯片研發需要投入大量資金,軟硬 件開發的成本難以通過小規模使用均攤成本。
Autopilot 1.0 系統因 Mobileye EyeQ3 算力低、算法和芯片捆綁銷售限制創新被棄 用。2014 年特斯拉發布 Autopilot 1.0,視覺芯片采用 Mobileye EyeQ3,數據融合芯片采 用英偉達 Tegra 3。搭載 1 個前置攝像頭、1 個后置倒車攝像頭(不參與輔助駕駛)、1 個 前置雷達、12 個超聲波傳感器。特斯拉棄用主要原因在于:EyeQ3 算力僅 0.256TOPS, 而且視覺感知算法和芯片捆綁銷售,影響產品創新。
Autopilot 2.0 系統因 NVIDIA PX2 方案能效比差,成本較高被棄用。2.0 系統較上 一代提升 40 倍性能,系統由 1.0 系統的雷達引導為主,轉變為以攝像頭為主,雷達作為 輔助。硬件方案采用 NVIDIA 的 1 顆 Tegra Parker 芯片和 1 顆 Pascal 架構芯片方案;支 持 8 個攝像頭、12 個超聲波雷達和 1 個前置毫米波雷達。2.5 系統仍是 NIVIDIA 方案的 延續。特斯拉棄用 NVIDIA 方案主要原因在于:NVIDIA PX2 方案 GPU 芯片仍有較多 的軟硬件資源浪費,能效比(算力/功耗)較差,成本較高。
特斯拉 Autopilot 3.0 系統自研 FSD+算法。3.0 系統采用了自研的 FSD 芯片方案, 2 顆 FSD 芯片實現冗余設計,共 2*72TOPS/72W,針對自身應用算法和場景專門設計 FSD,可減少不必要的軟硬件模塊,實現資源的最大化利用。Autopilot 3.0 實際應用性能 相比 2.5 版本提升 21 倍,功耗僅高 25%,其成本卻只有 2.5 版本的 80%。兩顆芯片將運 算結果互相比對,若結果正確則執行操作,若錯誤則返回重算,而且若某顆芯片出現故 障,自動駕駛系統仍不受影響。
FSD 芯片是一顆 CPU+GPU+ISP+2*NPU 的異構芯片。芯片異構化是總體發展方 向,讓專用處理單元運算對應的操作。1)CPU 是 1 個 12 核心 ARM A72 架構的 64 位處 理器,運行頻率為 2.2GHz;2)GPU 能夠提供 0.6TFLOPS 計算能力,運行頻率為 1GHz;3)2 顆 NPU(神經網絡單元)運行在 2.2GHz 頻率下能提供 2*36TOPS 的處理能力。為 了提升神經網絡處理器的內存存取速度以提升計算能力,每顆 FSD 芯片內部還集成了 32MB 高速緩存
FSD 芯片針對自身需求專門開發,是特斯拉芯片性能高和功耗優的重大法寶。發布 Autopilot 3.0 時,特斯拉宣稱 FSD 芯片算力為 72TOPS,系統整體算力 2*72TOPS,而 NVIDIA Xavier 芯片僅為 21TOPS。盡管之后 NVIDIA 公布 Xavier 理論計算能力為 30TOPS,但依然不及 FSD芯片。而NVIDIA DRIVE AGX Pegasus計算平臺,基于2*Xavier 和 2*TensorCore GPU,算力達到 320TOPS,功耗為 320W,高于 Autopilot 3.0 系統的 72W。主要系 FSD 芯片作為特斯拉專用芯片,較 GPU 的通用芯片可減少不必要的軟硬 件模塊,實現資源的最大化利用。
5.2. NVIDIA:全球通用 AI 芯片龍頭,構建生態王國(略)
結論:NIVIDA 屬于第 1 陣列,作為通用 AI 芯片龍頭,占據 L3 級及以上市場,對 外提供芯片級產品,而非芯片+算法的解決方案,是合資品牌的優選。主要優勢:1)中 立第三方,最豐富的生態體系。定位 Tier 2 芯片供應商,提供芯片或開發平臺,具備最 完善的軟件工具鏈和應用生態;2)算力高(但利用率仍有待提升),Xaier 芯片的 30TOPS 高于 Eye Q4 的 2.5TOPS,Orin 芯片的 200TOPS 高于 Eye Q5 的 24TOPS;3)支持各類 傳感器數據融合,可提供攝像頭+雷達等各類傳感器數據融合處理;4)提供云服務,有 望獲取數據實現優化。主要劣勢:主要系 GPU 通用芯片,有大量的非必要軟硬件模塊, 1)成本價格較貴,浪費資源,后續有望規模量產后實現快速下降;2)能效比差,后續 產品開發加入更多的 DLA 深度學習加速器模塊,能效比有望改善。
5.3. Mobileye:背靠英特爾,全球自動駕駛 AI 芯片龍頭(略)
結論:Mobileye 屬于第 1 陣列,背靠英特爾,占據 L2 級及以下市場,芯片+算法 綁定的一體式解決方案。主要優勢:1)經驗豐富&質量可靠,產品已經有眾多量產車搭 載,質量和適配過關;2)客戶資源最豐富,國內外絕大多數主機廠和 Tier1 級供應商均 為其客戶;3)價格較為合理。主要劣勢:1)算力提升明顯低于其他廠商,最新 EyeQ5 算力峰值僅 24TOPS,而市場認為 L3 級算力需求 30TOPS 以上,后期芯片僅靠提升 VMP 等手段,算力提升或難以為繼,又或者因為高度定制化針對視覺領域,減少不必要的軟 硬件資源,算力不高但性能仍滿足需求;2)黑盒子模式限制用戶創新,算法和芯片捆綁 銷售,或與廠商規模較小,為客戶提供定制化服務,在主機廠軟件開發能力較差的初期 階段受廣泛歡迎,但隨著開發能力提升,一體銷售的靈活度較差,客戶難以做出差異性 產品。根據規劃 Eye Q5 或將開放融合算法,但感知算法并未提及。
5.4. 華為:依托芯片,欲打造最強生態體系
總結:華為屬于第 1.5 陣列,憑借強勁的技術實力有望快速進入第一陣列,主要針 對 L2+及以上市場,模式與 NVIDIA 類似,現階段對外提供平臺類產品(開發平臺), 而非解決方案,是國產品牌的優選。主要優勢:1)算力高,能效優,計算平臺可提供 64~350TOPS,端到端 1TOPS/W(芯片級 2TOPS/W);2)支持各種傳感器融合處理;3) 華為整體技術雄厚,生態體系有望迅速完善;依托華為從底層芯片、操作系統、應用算 法、5G、云計算服務等迅速建立豐富生態體系;4)提供云服務,有望獲取數據實現優 化。主要劣勢:1)無量產車,缺乏相關的經驗積累,暫時無數據優化軟件算法,搭載量 產車或到 2021 年底左右;2)現階段生態體系仍弱于英偉達,所以目前華為廣交朋友圈, 依靠眾多領域的優勢構建龐大生態體系;3)客戶對其“不造車”尚持懷疑,或影響合作。
華為芯片主要有五大系列,昇騰芯片是車端 AI 計算核心。1)麒麟芯片是手機等移 動終端設備芯片,主要包括應用于高端領域的 9 系列,包括麒麟 990、麒麟 980、麒麟 970 等。除此之外,麒麟還擁有 6 系,7 系以及 8 系等面向中低端系列的芯片;2)鯤鵬 芯片主要面向服務器領域,鯤鵬 920 芯片完全由華為自主研發,是全球第一款 7nm 的數 據中心 ARM 處理器,主要適用于華為的泰山服務器;3)昇騰芯片是 AI 領域的處理器, 昇騰芯片分為云端和邊緣端兩個系列,云端(數據中心等大算力需求)為昇騰 910,邊 緣端(設備端等)為昇騰 310,現階段運用車端的主要是昇騰 310;4)巴龍芯片是基帶 (通信)芯片,如支持 5G 雙模的巴龍 5000,主要應用在麒麟 980 和麒麟 990 上,其中 麒麟 990 還推出了集成巴龍 5000 基帶芯片的版本;5)凌霄芯片是路由器芯片,其中 Hi5651 芯片是業界首款 4 核 1.4GHz 家庭路由處理芯片。
基于昇騰 310 AI 芯片的 MDC 計算平臺是華為車端生態的堅實根基。在 2018 年推 出 MDC 計算平臺以及高階自動駕駛全棧解決方案,包括分別對應于 L3、L4 級自動駕 駛的 MDC 300 和 MDC 600 平臺。MDC 集成了華為自研的 Host CPU 芯片、AI 芯片、 ISP 芯片與 SSD 控制芯片,并通過底層的軟硬件一體化調優,在時間同步、傳感器數據 精確處理、多節點實時通信、最小化底噪、低功耗管理、快速安全啟動等方面業界領先。MDC 的核心是昇騰 310 芯片,主要用于 AI 計算。昇騰 310 是一顆 N-SOC 芯片,采用 自研達芬奇架構,算力功耗 16TOPS/8W,12nm 工藝,其主要應用于整個邊緣端市場, 2019 年底已量產可提供給工業領域客戶。
MDC 300 計算平臺支持 L3 級自動駕駛。MDC 300 由華為昇騰 310 芯片、華為鯤 鵬 CPU 芯片和英飛凌的 TC397 三部分構成,算力為 64TOPS,支持 L3 級自動駕駛需 求,可接入 11 個攝像頭、6 個毫米波雷達、12 個超聲波雷達、6 個激光雷達。
MDC600 計算平臺支持 L4 及以上自動駕駛。MDC 600 包括鯤鵬 CPU+8 塊昇騰 310+ISP,支持 L4,算力為 352TOPS,支持 L4 及以上自動駕駛,可接入 16 個攝像頭、 16 個超聲波雷達、8 個激光雷達、6 個毫米波雷達。
MDC 是一套開放的車規級平臺,優勢突出。1)高能效:整套計算平臺可實現端到 端 1TOPS/W 能效(芯片級高達 2TOPS/W 能效)。2)開放:MDC 具備組件服務化、接 口標準化、開發工具化的特性,基于此平臺可快速開發、調測、運行自動駕駛算法與功 能。針對不同級別的自動駕駛算力需求,MDC 可提供一套軟件架構,不同硬件配置, 內部支持 ROS 與 Adaptive AutoSAR 軟件架構,具備較好的跨域通信能力。3)高安全:華為的自動駕駛全棧解決方案、MDC 智能駕駛硬件平臺、車載操作系統鴻蒙內核近期 均已通過 ASIL-D 功能安全認證。
在商業合作模式方面,華為不提供芯片級別的解決方案,只提供 MDC 系統級產品。已合作客戶包括奧迪,一汽、沃爾沃、東風、蘇州金龍、山東浩睿智能、新石器等。
車企面對自動駕駛的快速開發和功能迭代,主要面臨幾大挑戰:1)處理海量數據, 成本高。一輛測試車 1 小時產生 8TB 數據,一天按 8 小時,一個月按 22 天計算,單車 將產生約 1.3PB /月的數據,而有效數據僅為 0.05%,同時還有 80 萬張/車/天圖片待人工 標識。2)訓練及仿真需要優異 AI 算法和強大算力。從訓練和仿真來看,單車預計需累 積里程 100+億公里,300GPU/2 天模型訓練,仿真測試則每天需處理 100 萬公里。3)仿 真是自動駕駛持續提升安全的關鍵。仿真不可代替實車,但是前期開發實驗過程仿真可 快速實現和減少大量試錯成本,不僅需要大量場景支持在線仿真,同時也需要有以實車 為主的決策規劃仿真系統。4)工具分散不能統一管理。現有工具多為煙囪式孤島,分 散,不利于大數據的統一、AI 能力的統一構建,及高效運營管理。
華為“八爪魚”自動駕駛云服務是基于昇騰 910AI 芯片的數據中心云服務?!鞍俗?魚”自動駕駛云服務覆蓋自動駕駛數據、模型、訓練、仿真、標注等全生命周期業務, 向車企及開發者,提供了包括數據服務、訓練服務、仿真服務在內的 3 大服務。1)數據 服務:處理車載硬件平臺上輸出的傳感器數據,回放雷達、攝像頭等不同格式的數據;支持 PB 級海量存儲、交互式大數據查詢和海量數據治理。2)訓練服務:管理和訓練自 動駕駛模型,不斷在新的數據集和測試集上提升模型的準確度,持續提升自動駕駛安全 系數。平臺提供軟硬件加速,能大幅縮短訓練時間,提升訓練效率。3)仿真服務:提供 仿真、場景庫管理、場景片段、評測系統等應用工具,確保自動駕駛模型合規、安全、 可度量、質量達標,快速集成到版本中。
現階段自動駕駛云服務供應商主要為華為、英偉達兩家巨頭。目前數據中心云端芯 片供應商主要包括華為、英偉達、寒武紀等,而 google、百度等均為自研內供。其他企 業需要數據中心云服務可通過直接外購云計算服務或者自建數據中心兩種放式。
5.5. 地平線:對標 Mobileye,AI 芯片率先搭載 UNI-T 座艙域(略)
結論:地平線屬于強勢第 2 陣列,模式與 Mobileye 類似,對外主要提供解決方案 類產品(芯片+算法),未捆綁銷售,AI 芯片于 2020 年已搭載在長安 UNI-T 座艙域。自 動駕駛域芯片尚未搭載量產車,現階段主要針對 L2 級及以下市場,對外提供芯片+算法 方案。主要優勢:1)作為中立第三方,芯片和算法可分開銷售或一體式解決方案,受客 戶信任;2)國產芯片,國內優選。主要劣勢:1)現階段算力較低,無豐富生態,創企 等;2)尚未通過功能安全認證,無自動駕駛芯片量產車。
地平線成立于 2015 年 6 月,創始人系百度深度學習研究院院長余凱博士,學術背 景濃厚,2017 年被英特爾領投。2017 年 12 月發布中國首款邊緣端人工智能視覺芯片征 程(Journey)系列和旭日(Sunrise)系列。征程系列主要用于智能駕駛領域,旭日系列 主要用于物聯網領域。合作伙伴包括奧迪、博世、長安、比亞迪、上汽 、廣汽等國內外 的頂級 Tier1,OEM 廠商。
5.6. 寒武紀:源于中科院,面向云邊端全領域(略)
結論:寒武紀屬于第 2 陣列,或從車路協同、云服務(數據中心)等領域實現快速 切入。主要優勢:1)云邊端三類產品可從各種商業模式供應給智能車產業領域,云端 產品可供應車企/Tier 1 數據中心或提供給云服務供應商;邊緣端產品供應給政府類客戶 用于車路協同設備使用;邊緣/終端產品供應給主機廠等。2)國產芯片,國內優選、中 立第三方。主要劣勢:1)與車企合作較少,無豐富生態,創企等;2)尚未通過功能安 全認證。
寒武紀是智能芯片領域的先行者。寒武紀創始團隊源于中科院,并長期致力于在人 工智能與處理器架構交叉研究,DianNao、DaDianNao、PuDianNao、ShiDianNao、 DianNaoYu 等系列深度學習處理器架構或指令集成果在國際學術界引起的轟動性效應。隨著研究成果趨于成熟,2016 年寒武紀公司成立,并著手將其芯片和指令集業務向商用 方向轉化,截止目前,寒武紀是國際上少數幾家全面系統掌握了智能芯片及其基礎系統 軟件研發和產品化核心技術的企業之一。
寒武紀產品覆蓋云端、邊緣端、終端。寒武紀已面向云端、邊緣端、終端推出了三 個系列不同品類的通用型智能芯片與加速卡產品,以及共用相同自研指令集、處理器架 構和基礎系統軟件平臺,完成了“云邊端一體化”建設,可覆蓋人工智能領域高度多樣 化的應用場景(如視覺、語音、自然語言理解、機器學習等)。
5.7. 域控制器 AI 芯片潛在進入者
AI 芯片具備成為域控制器 AI 芯片的潛質:1)需要通過車規級/功能安全標準;2) 算力至少應為 TOPS 量級;3)能效比(算力/功耗)應 TOPS/W 量級;4)與主機廠或 Tier1 供應商較長時間的合作適配等幾個特點。
邊緣端芯片公司:以下廠商均未涉及汽車領域,更未通過車規級。比特大陸產品主 要用于礦機芯片,功耗過高;云天勵飛算力較低。
云端 AI 芯片公司:1)百度、谷歌在自動駕駛領域布局最多,主要針對 L4 級以上 自動駕駛領域,自研硬件、算法、編程框架等。例如百度自研算法、編程框架 PaddlePadlle, 其昆侖芯片為云端芯片,目前已搭載于服務器,具備開發自動駕駛域 AI 芯片的技術能 力。2)阿里、騰訊通過投資創企或設立企業進行布局 AI 芯片,芯片主要對內提供數據 中心云端芯片,暫不涉及自動駕駛領域。3)國內外云端創企如 Grop、Graphcore、依圖 科技等暫時主要針對數據中心云端芯片,短期內無法布局更多領域。
FPGA 芯片公司:主要為賽靈思(美國),深鑒科技(賽靈思收購),阿爾特拉(英 特爾收購)。整體算力較低,能效比低于 N-SOC,通用性能低于 GPU,需要 Tier 1 級供 應商定制化芯片結構以及提供一整套的算法應用方案。
傳統汽車電子巨頭:瑞薩電子、NXP、英飛凌、TI 等均部署自動駕駛領域計算平臺 產品。但現階段提供的計算平臺產品仍屬于 CPU 占主導的范疇,AI 算力較低,而且能 耗較大。部分企業通過并購或投資 AI 芯片創企的方式快速切入汽車 AI 芯片領域。