AI 大算力芯片的存算“出奇”想法
在最近由 AspenCore 主辦的 2023 中國 IC 領袖峰會上,中國半導體行業協會 IC 設計分會理事長魏少軍教授在《集成電路發展中的體C挑戰“正”與“奇”》的主題演講中提到,中國半導體產業的應對發展要在“守正”的市場發展道路上穩步前行,同時也需要在新的大算賽道“出奇”。比如在高性能計算領域,力和在先進工藝、存算技術和芯片產品受到外界限制的體C挑戰情況下,我們如何利用國產工藝技術實現創新而跟全球高性能計算和 AI 發展保持同步甚至超越? 更具體一點,應對就目前炒作火熱的大算 AIGC 大模型所需要的大算力 AI 芯片來說,能否利用我們現在可用的力和工藝和技術來開發在性能上可以跟英偉達 GPGPU 對標的 AI 芯片呢? 一些“守正且出奇”的技術包括: 軟件定義芯片、chiplet、存算3D 堆疊和先進封裝、體C挑戰存算一體等。應對
自從 OpenAI 的大算 ChatGPT 于 2022 年 11 月推出以來,AIGC 迅速在全球掀起一股熱潮。力和與 OpenAI 有深度合作的微軟在 BING 搜索方面有了明顯的收益,谷歌和百度等搜索引擎和互聯網巨頭紛紛發布各自的大語言模型 (LLM)。在這些熱潮的背后是 GPU 芯片的瘋狂購買囤貨,因為訓練 LLM 需要龐大的算力支持。要支撐這類 AI 大模型的訓練和基于這些模型的 AIGC 應用,需要投入數十億美元的資金,同時還需要巨大的電力供應,因為算力強大的 GPGPU 耗電量也十分驚人。
據統計預測,全球算力需求呈現高速發展態勢。2021 年,全球計算設備算力總規模達到 615EFLOPS (每秒一百京次 (=10^18) 浮點運算); 到 2025 年,全球算力規模將達 6.8 ZFLOPS (每秒十萬京 (=10^21) 次的浮點運算), 與 2020 年相比提升 30 倍;到 2030 年,有望增至 56ZFLOPS。算力翻倍時間在明顯縮短,大模型出現后,帶來了新的算力增長趨勢,平均算力翻倍時間約為 9.9 個月。
伴隨著算力的提升,數據中心和 AI 服務器的耗電量也大幅提升。2022 年 Intel 第四代服務器處理器單 CPU 功耗已突破 350 瓦,英偉達單 GPU 芯片功耗突破 700 瓦,AI 集群算力密度普遍達到 50kW / 柜。根據 ChatGPT 在使用訪問階段所需算力和耗電費用估計,使用英偉達 DGX A100 服務器的標準機柜需要 542 臺 (每臺機柜的功率為 45.5kw), 折算為每日電費大約 4.7 萬美元。
對國內 AI 應用企業來說,即便資金不是問題,能否購買到最先進的 GPU 芯片也是個大問題。即便部署了足夠的 GPU 和服務器機柜,日常運營的耗電成本也不容小覷。盡管最近兩年有不少國產 GPU 初創公司發布性能不錯的 GPU 芯片,但到目前為止還難以跟英偉達的 GPU 相提并論。面對算力和能耗這兩大挑戰,國產 AI 芯片公司能否想出“出奇”之道?
“存算一體”沖破能耗墻
“存算一體”技術可以解決傳統馮諾伊曼架構處理器所面臨的三堵墻: 存儲墻、能耗墻、編譯墻。存算一體架構沒有深度多層級存儲的概念,所有的計算都放在存儲器內實現,這就從根本上消除了因為存算異構帶來的存儲墻及相應的額外開銷;存儲墻的消除可大量減少數據搬運,不但提升了數據傳輸和處理速度,而且能效比得以數倍提升,這意味著支持與傳統架構處理器同等算力所需的功耗可以大大降低;存儲和計算單元之間的調用和數據搬運需要復雜的編程模型,而存算一體的數據狀態都是編譯器可以感知的,因此編譯效率很高,可以繞開傳統架構的編譯墻 (生態墻)。
在存算一體這一賽道上,最早是美國的 Mythic 公司在 2010 年左右推出了存算一體芯片,國內在 2017 年左右出現了存算一體技術路徑的創業團隊,到現在為止已有數家,比如知存科技、千芯科技、蘋芯科技、九天睿芯、后摩智能和億鑄科技等。但這些初創公司在存儲器的選擇上出現了三種主要方向,最早從傳統存儲器開始,如 Flash,SRAM 再到新型憶阻器 ReRAM。算力也從微小算力 (<1T)、500T 到 1P 的大算力。存算一體最大的優勢在于高能效比,但微小算力場景與大算力場景最大的應用區別是對計算精度要求的滿足及成本。這也決定著這些存算一體初創公司通向了不同的應用場景,比如九天睿芯的芯片產品主要面向小算力的邊緣和端側應用。而 ChatGPT 等大模型的出現勢必對 AI 大算力芯片提出新的要求。
基于“存算一體”架構開發的 AI 芯片在克服能耗挑戰方面有很大的潛力,但如何實現高性能和大算力呢?
存算一體 + chiplet 也許是一種可行的“出奇”之道。
(有關 chiplet 和 2.5D / 3D 堆疊先進封裝的技術和應用不在這里詳述,感興趣的讀者可以點擊鏈接詳細了解)
ReRAM: 材料、工藝和 AI 應用潛力
在傳統馮諾依曼計算架構中,占據主要地位的 DRAM 和 Flash 等傳統存儲技術面臨技術瓶頸,面對低功耗和高性能的需求,無法實現根本性的改善,而新型存儲技術成為業界重點布局與探索的方向。經過 10 多年的努力,MRAM (磁性存儲器)、PCRAM (相變存儲器)、FRAM (鐵電存儲器) 和 ReRAM (阻變存儲器) 等新型存儲技術也逐步走出實驗室,進入試用甚至商用階段。
ReRAM (阻變存儲器,或憶阻器) 是以非導性材料的電阻在外加電場作用下,在高阻態和低阻態之間實現可逆轉換為基礎的非易失性存儲器。ReRAM 包括許多不同的技術類別,比如氧空穴存儲器 (OxRAM)、導通橋聯存儲器 (CBRAM) 等。ReRAM 的單元面積極小,可做到 4F2, 讀寫速度是 NAND Flash 的 1000 倍,同時功耗可降低 10 倍以上。
導通橋聯 CBRAM 基本結構。(來源:Crossbar)
由于電阻切換機制基于金屬導絲,Crossbar ReRAM (CBRAM) 單元非常穩定,能夠承受從-40°C 到 125°C 的溫度波動,寫周期為 1M+, 在 85°C 的溫度下可保存 10 年。從密度、能效比、成本、工藝制程和良率各方面綜合衡量,ReRAM 存儲器在目前已有的新型存儲器中具備明顯優勢。
基于導通橋聯的 ReRAM 具有高達 1000 倍的低 / 高阻態差異,使其不易受外界運行環境的干擾影響,具有很強的穩定性。同時,以 ReRAM 組成的存算陣列單元因為阻態區分度大,所實現的存內計算可以更好地滿足大算力應用場景對算力、精度、能效比和可靠性的嚴格要求。
ReRAM 以其密度增長空間大、生產工藝與 CMOS 兼容等優勢,吸引了國內外眾多 IP 技術企業、大型晶圓代工廠、傳統存儲企業和半導體初創企業投入到其商業化進程中。目前,臺積電、聯電、Crossbar、昕原半導體、松下、東芝、索尼、美光、海力士和富士通等廠商都在積極開展 ReRAM 技術的研究和產業化推進。國內新型存儲器 ReRAM 的生產工藝及產線已經實現了規模化量產商用。
基于 ReRAM 工藝的芯片主要用于存儲和存算一體兩個方面,其中采用”存算一體“結構和技術的 AI 芯片將有可能實現 AI 大算力突破,成為可以應對 AIGC 大算力挑戰的 GPGPU 有力競爭者,有望在 AIoT、智能汽車、數據中心和高性能計算等方面獲得廣泛的應用。存算一體 AI 芯片初創公司億鑄科技基于憶阻器這種新型存儲器件,創新性地采用全數字化的實現方式,將存算一體架構應用于 AI 大算力芯片,從而讓存算一體真正在高精度、大算力 AI 方向實現商用落地。
存算一體 + Chiplet 助力 AI 算力第二增長曲線
由于 AI 模型規模不斷擴大,用于深度學習的存內計算 (IMC) 單芯片方案在芯片面積、良率和片上互連成本等方面面臨著巨大挑戰。存算一體 AI 芯片能否借助芯粒 (chiplet) 和 2.5D / 3D 堆疊封裝技術實現異構集成,從而形成大型計算系統,提供超越單一架構 IMC 芯片的大型深度學習模型訓練和推理方案?
美國亞利桑那州立大學的學者于 2021 年發布了一種基于 chiplet 的 IMC 架構基準測試仿真器 SIAM, 用于評估這種新型架構在 AI 大模型訓練上的潛力。SIAM 集成了器件、電路、架構、片上網絡 (NoC)、封裝網絡 (NoP) 和 DRAM 訪問模型,以實現一種端到端的高性能計算系統。SIAM 在支持深度神經網絡 (DNN) 方面具有可擴展性,可針對各種網絡結構和配置進行定制。其研究團隊通過使用 CIFAR-10、CIFAR-100 和 ImageNet 數據集對不同的先進 DNN 進行基準測試來展示 SIAM 的靈活性、可擴展性和仿真速度。據稱,相對于英偉達 V100 和 T4 GPU, 通過 SIAM 獲得的 chiplet +IMC 架構顯示 ResNet-50 在 ImageNet 數據集上的能效分別提高了 130 和 72。
SIAM 采用基于 chiplet 的 IMC 架構。(來源:SIAM / GOKUL KRISHNAN)
上圖顯示了 SIAM 使用的基于同構 chiplet 的 IMC 架構。整個架構由一系列 chiplet 組成,其中包括 IMC 計算單元、全局累加器、全局緩沖區和 DRAM。Chiplet 陣列利用封裝上網絡 (NoP) 實現互聯。SIAM 支持基于 SRAM 或 RRAM 的 IMC Crossbar 存算單元,這些存算單元陣列組成處理元素 (PE);PE 陣列又構成 IMC Tile 陣列,然后構成 IMC chiplet。
盡管 SIAM 仿真器僅針對同質架構或定制架構,但為異構集成實現的存算一體 + Chiplet 架構提供了很有價值的設計思路。就存算一體、Chiplet 和 2.5D / 3D 先進封裝技術的發展而言,國內廠商跟國外同行基本處于同一起跑線上。在兼容 CMOS 的國產 ReRAM 工藝上,通過 Chiplet 和先進封裝集成 IMC 單元、GPU 和 CPU 等不同工藝節點的處理單元,來實現大算力 AI 芯片以應對算力和功耗的挑戰,看來是可行的。
有業界專家總結出 AI 算力增長的階段性曲線,自 2018 年至今的 GPGPU 和 AI 芯片算力增長屬于第一增長曲線階段。這一階段的參與者有英偉達和 AMD 等國際 GPU 巨頭,也有眾多國內廠商參與其中,包括百度昆侖芯、華為海思、天數智芯、寒武紀和壁仞科技等。這些公司所采用的晶圓工藝從 14nm 到 5nm 不等;算力從 130T 到 485T; 功耗從 70W 到 150W。這一階段的 AI 芯片的共同點在于都是采用傳統的處理器架構,伴隨著算力的提升,功耗和成本也隨之上升。工藝節點到了 5nm, 一顆芯片的研發成本以億美元計算,不是每一家公司都能夠支撐得起的。即便有這個實力可以繼續支撐下去,但算力與功耗的矛盾也是難以解決的,因為處理器架構在本質上決定了其局限性。
對于國內廠商來說,要在成熟工藝上以低成本實現 500T 以上的算力,就必須采用“出奇“的架構。存算一體 + chiplet 組合似乎是一種可行的實現方式,據稱億鑄科技正在這條路上探索,其第一代存算一體 AI 大算力商用芯片可實現單卡算力 500T 以上,功耗在 75W 以內。也許這將開啟 AI 算力第二增長曲線的序幕。