一塊指甲蓋大小的芯片,竟能在求解矩陣逆運算時,性能超過頂級GPU千倍。這不是科幻,而是北京大學孫仲團隊剛剛實現的突破。當全球還在追逐晶體管尺寸的極限時,中國科研團隊已悄然繞開傳統賽道,用“存算一體”的模擬架構,直擊AI訓練中最耗能的隱形瓶頸。
這場突破的核心,是讓芯片“算得準”且“算得省”。過去,模擬計算總因精度不足被棄用——誤差動輒10?2,遠遜于數字芯片的10?1?。但新芯片通過“微切片”與迭代優化,將24位定點精度誤差壓至10??,首次媲美數字計算。更關鍵的是,它專攻AI二階訓練中的矩陣求逆,而非眾人追逐的矩陣乘法。這一步,踩中了算力演進的真正命門。
傳統GPU在矩陣求逆面前,正陷入系統性困局。馮·諾依曼架構下,計算與存儲分離,數據在內存與核心間反復搬運,75%以上的時間消耗在等待而非運算。即便H100這般頂級GPU,面對128×128矩陣求逆,其O(n3)的立方級復雜度也會迅速擊穿內存帶寬天花板。計算單元空轉,能耗飆升,能效比斷崖式下跌。這不是性能不足,而是架構的宿命。
而新芯片用物理規律破局。阻變存儲器的電阻值直接映射矩陣元素,電壓電流依歐姆定律自然完成乘法,基爾霍夫定律自動實現求和。矩陣方程的求解,變成電路狀態的收斂。沒有指令譯碼,沒有數據搬移,沒有二進制轉譯——計算本身成了物理過程。32×32矩陣求逆超越GPU單核,128×128規模下吞吐量千倍躍升,能效提升三個數量級,正是這一范式轉換的直接結果。
這并非要取代CPU或GPU,而是為AI算力拼上缺失的一塊拼圖。當前AI訓練依賴海量一階梯度下降,但若想突破收斂速度極限,二階方法終將回歸。那時,矩陣求逆不再是邊緣需求,而是核心剛需。北大團隊的芯片,正是為此而生。它不參與通用計算,卻能在機器人實時規劃、MIMO信號檢測、高斯過程推理等場景,釋放被禁錮的算力潛能。
真正的算力革命,從不只在數字上較勁。當別人還在摩爾定律的斜坡上攀爬時,有人已另辟蹊徑,重構計算的底層邏輯。精度不再是模擬計算的軟肋,反而成為其突破的支點。工藝適配與量產仍是挑戰,但方向已然清晰:未來的芯片競爭,不在納米,而在架構。誰能重新定義“計算”,誰就握住了AI時代真正的鑰匙。
算力的未來,不在更小的晶體管,而在更聰明的電路。
全部評論 (0)