蘇建維 / 工研院電光所
記憶體內運算電路技術探討「Computing in Memory」(CIM)
【國立清華大學】A 22 nm 104.5 TOPS/W μ-NMC-Δ-IMC Heterogeneous STT-MRAM CIM Macro for Noise-Tolerant Bayesian Neural Networks
這篇論文探討了一種基於STT-MRAM的CIM架構,專門用於貝氏神經網路(BNN),目標是在邊緣AI應用中提升影像識別的抗噪能力與能源效率。傳統的CNN和ViT在環境雜訊影響下容易出現推論準確度下降或誤判,而BNN透過將權重拆分為平均值(μ-weight)和與平均值的偏差(Δ-weight),可以有效降低雜訊影響,提高模型穩定性。然而,使用數位電路實現BNN時,需要在推論準確度、效能、功耗與面積(PPA)之間取得平衡。
STT-MRAM因其隨機性、高耐久性與非揮發性,被認為是BNN的理想硬體平台,但在CIM應用中仍然面臨三大挑戰……
圖廿四、國立清華大學-晶片總結
【台積電】A 16 nm 216 Kb Microscaling Multi-mode Gain-cell Computing-in- Memory Macro with 188.4 TOPS/W and 133.5 TFLOPS/W for AI-Edge Devices
這篇論文討論了一種能夠支援多種數據格式的新型人工智慧計算架構,稱為MX-INT-FP多模式計算記憶體(M2-CIM)。隨著AI應用需要更高的解析度、多格式相容性和更高的能源效率(EEF),傳統的整數計算記憶體(INT CIM)雖然節能,但準確度受限;浮點計算記憶體(FP CIM)則有更高的準確度,卻因更大的位元寬度和繁瑣的資料前後處理而耗能。為了在效能和準確度之間取得平衡,近年來發展出微縮縮放(MX)格式,透過在同一區塊內共享縮放因子,降低資料寬度並提升能源效率。然而,要讓CIM同時支援MX、INT和FP格式,仍面臨以下挑戰…..
圖廿五、台積電-晶片總結
【北京清華】A 51.6 TFLOPs/W Full-Datapath CIM Macro Approaching Sparsity Bound and <2-30 Loss for Compound AI
這篇論文探討了一種用於複合式AI(Compound-AI)的浮點記憶體內計算(FP-CIM)架構,目標是在邊緣AI設備上高效執行多個小型專業模型,提供與大型語言模型(LLM)相當甚至更好的準確度,同時降低運算資源需求。LLM因為其卓越的性能,被廣泛應用於各種AI任務,但由於參數量過大,難以在邊緣裝置上部署。研究顯示,透過組合多個專業的小模型(如RevCol),可以在特定任務上超越單一大型模型。例如,在ImageNet影像分類任務中,RevCol的準確度比7.2B參數的單一LLM模型高出1.64%。這種「複合式AI」方法不僅減少了模型大小,還提升了計算效率,為邊緣部署提供了新的可能性。然而,要有效支持複合式AI的運算,傳統FP-CIM架構仍面臨三個關鍵挑戰……
【東南大學】NeuroPilot: A 28 nm, 69.4 fJ/node and 0.22 ns/node, 32×32 Mimetic-Path-Searching CIM-Macro with Dynamic-Logic Pilot PE and Dual-Direction Searching
這篇論文探討了一種針對自主微型機器人導航的新型記憶體內計算(CIM)架構。隨著人工智慧驅動的微型機器人應用越來越廣泛,例如物流配送與監控,這些設備需要高效的路徑尋找演算法來應對複雜的城市環境。類似的導航需求也出現在VLSI佈線、城市路徑規劃以及波前傳播等領域,因此高效的導航計算架構具有廣泛應用價值。傳統上,大多數研究依賴數位加速器來解決導航問題,而近期的模仿路徑(mimetic-path)CIM架構則透過將SRAM整合到處理單元(PE)陣列中,提升效能、功耗效率與面積利用率
圖廿九顯示一顆基於28 nm CMOS製程開發的NeuroPilot CIM晶片。其記憶體單元遵循邏輯規則(Logic rule),採用兩種結構 ---以上為部分節錄資料,完整內容請見下方附檔。
圖廿九、東南大學-晶片總結