10 月 14 日消息,據北京大學人工智能研究院官方微信公眾號消息,昨日,北京大學人工智能研究院孫仲研究員團隊及合作者在國際學術期刊《自然?電子學》(Nature Electronics)雜志發表了題為 Precise and scalable analogue matrix equation solving using resistive random-access memory chips 的論文,在新型計算架構上取得重大突破。
研究團隊成功研制出基于阻變存儲器的高精度、可擴展模擬矩陣計算芯片,首次實現了在精度上可與數字計算媲美的模擬計算系統,將傳統模擬計算的精度提升了驚人的五個數量級。相關性能評估表明,該芯片在求解大規模 MIMO 信號檢測等關鍵科學問題時,計算吞吐量與能效較當前頂級數字處理器(GPU)提升百倍至千倍。這一成果標志著我國突破模擬計算世紀難題,在后摩爾時代計算范式變革中取得重大突破,為應對人工智能與 6G 通信等領域的算力挑戰開辟了全新路徑。
Nature Electronics 截圖
該研究由北京大學人工智能研究院通用人工智能芯片研究中心主導,并聯合集成電路學院研究團隊完成。孫仲課題組在項目攻關中發揮了核心作用,是此項成果的主要貢獻者。近年來,孫仲課題組聚焦 AI 算法底層通用矩陣計算加速研究,取得了一系列重要成果,相關論文發表在 Nature Electronics、Nature Communications、Science Advances 等期刊。
論文鏈接:https://www.nature.com/articles/s41928-025-01477-0
附北京大學人工智能研究院官方微信公眾號原文內容如下:
01、研究背景
矩陣方程求解是線性代數的核心內容,在信號處理、科學計算及神經網絡二階訓練等領域具有廣泛應用(圖 1)。相較于常規矩陣乘法,矩陣求逆操作對輸入誤差的敏感性顯著更高,因此對計算精度提出了嚴格要求。然而,采用數字方法實現高精度矩陣求逆的計算開銷極大,其時間復雜度可達立方級。隨著大數據驅動類應用的興起,這種高復雜度計算給傳統數字計算機帶來了嚴峻挑戰,尤其在傳統器件尺寸縮放逼近物理極限、傳統馮?諾依曼架構面臨“內存墻”瓶頸的雙重背景下,這一問題日益凸顯。
在這一算力瓶頸的背景下,模擬計算因其通過物理定律直接實現高并行、低延時、低功耗運算的先天優勢,重新進入研究視野。然而,傳統模擬計算受限于低精度、難擴展等固有缺點,逐漸被高精度、可編程的數字計算所取代,成為存于教科書中的“老舊技術”。孫仲表示,“如何讓模擬計算兼具高精度與可擴展性,從而在現代計算任務中發揮其先天優勢,一直是困擾全球科學界的‘世紀難題’?!?/p>
基于阻變存儲器陣列的模擬矩陣計算技術,被視為有望解決上述難題的路徑之一。特別是基于“陣列-運算放大器”閉環反饋原理設計的矩陣求逆電路,能夠實現矩陣求逆的一步式求解。盡管此類電路具備高速、高能效的計算潛力,但其固有的低精度特性仍是關鍵瓶頸,同時電路的硬連接結構也對其可擴展性構成挑戰。此外,在模擬矩陣乘法計算中,可通過比特切片、模擬補償等策略提升計算精度,也可通過將分塊子矩陣映射至多個陣列的方式實現擴展性。然而,矩陣方程求解過程缺乏有效的分配律與分塊矩陣方法支撐,這使得模擬矩陣求逆的精度與可擴展性問題長期未能得到有效解決。
當前,部分基于數?;旌系难芯糠桨溉源嬖诿黠@局限:一方面,此類方案雖可借助浮點數字計算機實現高精度殘差計算,卻大幅削弱了模擬計算在降低復雜度方面的核心優勢,同時還需頻繁執行模數轉換操作;另一方面,現有模擬矩陣求逆電路的實驗驗證規模仍局限于小規模場景,且所用器件缺乏可靠的多級存儲特性。
圖 1. 模擬矩陣計算電路求解矩陣方程。
02、研究方法
面對上述挑戰,研究團隊選擇了一條融合創新的道路,構建了一個基于阻變存儲器陣列的高精度、可拓展的全模擬矩陣方程求解器。通過新型信息器件、原創電路和經典算法的協同設計,首次將模擬計算的精度提升至 24 位定點精度。
研究團隊基于迭代算法,結合了模擬低精度矩陣求逆和模擬高精度矩陣-向量乘法運算,開發了一種基于全模擬矩陣運算的高精度矩陣方程求解方案(圖 2)。其中,模擬低精度矩陣求逆和模擬高精度矩陣-向量乘法運算保持了模擬矩陣計算固有的低復雜度。特別需要注意的是,模擬矩陣求逆有助于減少迭代次數,因為該方法可以在每次迭代中提供近似正確的結果。而高精度模擬 MVM 通過位切片方法,實現迭代細化過程。
此外,模擬低精度矩陣求逆和模擬高精度矩陣-向量乘法運算兩個電路的阻變存儲器陣列在 40nm CMOS 工藝平臺制造,可實現 3 比特電導態編程。
圖 2. 高精度全模擬矩陣計算求解矩陣方程
03、實驗結果
通過與塊矩陣算法相結合,我們在實驗上成功實現了 16×16 矩陣的 24 比特定點數精度求逆(圖 3)。具體而言,矩陣方程求解經過 10 次迭代后,相對誤差可低至 10??量級,展現了該方案在計算精度上的顯著優勢。
在計算性能方面,該技術表現出卓越的加速能力與能效。測試結果表明,在求解 32×32 矩陣求逆問題時,其算力已超越高端 GPU 的單核性能;當問題規模擴大至 128×128 時,計算吞吐量更達到頂級數字處理器的 1000 倍以上。同時,該方案在能效方面亦表現突出,在相同精度下能效比傳統數字處理器提升超 100 倍,為高能效計算中心提供了關鍵技術支撐。
在應用驗證層面,該方法被成功應用于大規模多輸入多輸出(MIMO)系統的信號檢測任務。研究團隊展示了基于迫零檢測的圖像恢復效果,在第二個迭代周期內,接收圖像即與原始圖像達到高度一致。進一步的誤碼率-信噪比分析顯示,僅需三次迭代,該系統在無線通信場景下的檢測性能即可媲美 32 位浮點精度數字處理器(圖 4),凸顯出其在實時信號處理中的潛力。
綜合基準測試結果證實,在保持相當計算精度的前提下,本模擬計算方法可實現領先的處理速度和能效(圖 5)。這些成果不僅驗證了全模擬矩陣求解路徑的可行性,也為應對未來智能計算與通信系統中的算力瓶頸提供了具有前景的技術平臺。
圖 3. 基于塊矩陣方法求解高精度、可拓展矩陣方程的實驗結果
圖 4. 高精度矩陣方程求解在大規模多輸入多輸出(MIMO)迫零檢測信號處理過程中的應用
圖 5. 模擬矩陣計算求解的性能比較(計算精度均為 FP32 精度)
04、成果意義與應用前景
“這項突破的意義遠不止于一篇頂刊論文,它的應用前景廣闊,可賦能多元計算場景,有望重塑算力格局。”孫仲研究員表示,在未來的 6G 通信領域,它能讓基站實時、且低能耗方式處理海量天線信號,提升網絡容量和能效。對于正在高速發展中的人工智能技術,這項研究有望加速大模型訓練中計算密集的二階優化算法,從而顯著提升訓練效率。“更重要的是,低功耗特性也將強力支持復雜信號處理和 AI 訓推一體在終端設備上的直接運行,大大降低對云端的依賴,進而推動邊緣計算邁向新階段。”
“這項工作的最大價值在于,它用事實證明,模擬計算能以極高效率和精度解決現代科學和工程中的核心計算問題??梢哉f,我們為算力提升探索出一條極具潛力的路徑,有望打破數字計算的長期壟斷,開啟一個算力無處不在且綠色高效的新時代?!睂O仲透露。