邱柏晟 / 工研院電光所
1. VLSI 2025 Sessions
(1)CIM and Quantum-inspired Computing
• A3nm 125 TOPS/W-29 TFLOPS/W, 90 TOPS/mm2-17 TFLOPS/mm2 SRAM-Based INT8 and FP16 Digital-CIM Compiler with Multi-Weight Update/Cycle
大綱:這篇論文由TSMC提出,展示了一種建構於3奈米節點上的數位計算記憶體 (CIM)編譯器,支援INT8與FP16的混合精度運算。其核心創新包括可重組的乘法與對齊單元(支持對FP16數據的動態exponent對齊與運算,如圖十三)、基於MAC Reuse的資料流設計、以及Dynamic Sparsity控制機制,能大幅提高能效至125 TOPS/W,同時保持高精度與硬體利用率。透過採用Alignment-First加總策略,能有效降低精度誤差,尤其適用於語音與影像等需要大資料量處理的應用場景,展現出系統面對大規模AI推論的實用性。

圖十三、AF & MF運算演算法(資料來源:VLSI 2025研討會資料)
• A 2-Transistor-1-Modulator (2T1M) Electronic-Photonic Hybrid Memory Architecture for Deep Neural Network CIM and Very Large-Scale Transformers
大綱:提出一種創新的2T1M混合電-光記憶體運算架構,針對大型DNN與Transformer的計算瓶頸進行優化,如圖十九,利用FeFET電路實現乘法,並透過LN光調變器進行無損相位總和。該方法有效解決傳統CIM面臨的IR drop問題,實現高密度、低功耗且具擴展性的推論平台。

圖十九、應用於Transformer之運算效能結果(資料來源:VLSI 2025研討會資料)
(4)AI Accelerators 2
• Adelia: A 4nm LLM Accelerator with Streamlined Dataflow and Dual-Mode Parallelization for Efficient Generative AI Inference
大綱:介紹專為大型語言模型(LLM)推論設計的硬體加速器「Adelia」,採用4 nm製程,搭配流線型資料流設計與雙模式平行化執行策略,顯著提升推論效能,如圖廿七。Adelia解決了Prefill階段的高運算需求與Decode階段的記憶體瓶頸,藉由MXE與Systolic Parameter Path有效管理計算與資料流。其可支援多token與batch平行推論,並在服務水準目標下動態切換執行策略,實現高達91%記憶體頻寬利用率與25.3 TFLOPS/W能效。---以上為部分節錄資料,完整內容請見下方附檔。

圖廿七、Adelia系統架構圖(資料來源:VLSI 2025研討會資料)