最近,就連飽受爭議的英偉達老板黃仁勛也再次扣動了扳機,宣布著名的摩爾定律“死了”。讓我們提醒您,摩爾定律指的是戈登摩爾(英特爾的技術先驅和聯合創始人)早期的預測,即現代微芯片上的晶體管數量每兩年翻一番。
當然,這可以顯著提高性能、提高能源效率并降低生產成本。
而AMD RDNA3的發布,似乎昭示著新時代的開始?
由于單片設計中的現代高端圖形處理器一代又一代地變得越來越復雜和昂貴,AMD 決定為其 RDNA3 圖形處理器采用全新的革命性小芯片設計。
他們最新的圖形處理器 Navi 31 基于小芯片設計,這意味著我們沒有一個大的單片芯片,而是幾個較小的芯片的組合,然后一起形成一個整體,從而實現了我們在圖形處理器中看到的所有功能。
這是否聽起來很熟悉?因為這正是AMD 多年來一直在其 Ryzen 和 Epic 處理器中使用的技術。正是因為采用了小芯片設計,他們取得了巨大成功。
然而,GPU 是一種略有不同的產品,很難指望主處理器中 chiplet 設計的所有優勢會像那樣轉移到圖形芯片的世界。
但讓我們也提一下具體的產品。AMD 的圖形處理器 Navi 31.是歷史上第一個小芯片 GPU,該產品是兩款最新顯卡——Radeon RX 7900 XTX 和 Radeon RX 7900 XT 的基礎。
XTX是旗艦機型,擁有更多的shader處理器,更高的內存帶寬,更多的顯存,而XT則是有些弱化的版本。
GCD + MCD = 小芯片 GPU
圖形處理器 Navi 31 由令人印象深刻的 580 億個晶體管組成,小芯片架構包括一個 GCD(圖形計算芯片)內核和多達 6 個 MCD(內存緩存芯片)內核。
300 平方毫米的 GCD 核心包含著色器處理器、ROP 單元和現代 GPU 的所有其他組件,采用臺積電更先進的 5 納米工藝制造。
另一方面,較小的 MCD 小芯片尺寸僅為 37 平方毫米,包含內存控制器和 Infinity 緩存,并使用 6 納米工藝制造。
也就是說,AMD 已經確定著色器處理器和其他單元從使用最現代的生產工藝中獲益更多,而內存控制器和緩存則不需要使用最新的工藝。
從這個意義上說,小芯片架構的使用降低了成本,因為使用尺寸更小的更小芯片,一個晶圓上的缺陷芯片數量要少得多。
然而,圖形處理器的小芯片方法的關鍵問題肯定是延遲的增加。圖形處理器對增加的延遲極為敏感。著名的 Infinity Fabric 總線與 AMD 的圖形芯片主處理器是不可能的,因為它太慢了。
AMD 使用全新的 Infinity Link 總線(即 Infinity Fanout Links 系統)連接 GDC 和 MCD 部件,從而在 GCD 和 MCD 小芯片部件之間實現 5.3 TB/s 的帶寬。
這種超級先進的互連系統無疑是小芯片 GPU 設計的關鍵決定因素。此外,AMD 計劃通過更高的運行時鐘來消除延遲增加的問題。
Navi 31:重新設計的 CU 和更好的光線追蹤
說到時鐘速度,Navi 31 是多年來第一款針對著色器處理器(即 ROP 和紋理單元以及芯片的其他部分)具有不同時鐘速率的圖形處理器。著色器處理器的工作時鐘略低于芯片的其余部分。
目前最強版本的Navi 31圖形芯片(RX 7900 XTX)的GCD代碼共有96個CU(計算單元)單元,同樣數量的光線追蹤單元,6144個著色器處理器和192個ROP單元。
與其前身 Navi 21 相比,AMD 對 Navi 31 圖形處理器中的計算單元 (CU) 進行了重大重新設計和改進。AMD 表示,Navi 31 芯片中的 CU 在相同的運行時鐘下將 IPC 提高了 17.4%。
此外,關鍵的創新是現在 FP32 單元可以同時執行兩個操作,AMD 稱之為 Dual Issue SIMD。這些處理器可以在每個數據路徑中處理兩條指令,與 RDNA 2 圖形處理器相比,理論上至少可以達到兩倍的指令速率。
然而,這只是理論上的可能性。作為這種設計的結果,在實踐中實際可以看到多少加速將在很大程度上取決于驅動程序中的編譯器。
RDNA 3 CU 單元的新穎之處當然是獨立的 AI 加速器(總共 192 個,每個 CU 單元 2 個),用于加速矩陣乘法等操作?,F在的第二代光線追蹤單元也得到了改進。
Navi 31 GCD 的光線追蹤單元支持額外的指令,光線追蹤得到改進和優化,并根據場景進行分類。與 RDNA 2 架構相比,AMD 承諾每個 CU 的性能提升高達 50%。
最后,當我們談到 Navi 31 中的 GCD 時,與 RDNA 2 圖形芯片相比,L0、L1 和 L2 緩存內存的數量有了顯著增加。
Radiance 顯示引擎 :165 Hz 時 8k!
如果我們回到小芯片 MCD,我們可以說 AMD 在使用 320 或 384 位總線方面增加了內存帶寬,盡管仍然使用 GDDR6 內存。
有趣的是,L3 緩存或 Infitnity 緩存的數量小于 RDNA 2 Navi 21 圖形處理器的數量,以降低能耗。另一方面,與 RDNA 2 芯片的 1.2 TB/s 相比,Infinity 緩存現在的速度是 2.5 TB/s 的兩倍。
Navi 31 還帶來了顯著改進的 GPU 部分,負責圖像顯示和多媒體。首先,新的 Radiance Display Engine 全面支持 DisplayPort 2.1.它可以通過單根電纜以 165 Hz 的 8k 分辨率或 480 Hz 的 4k 分辨率顯示圖像。
每個通道還可以使用 12 位彩色顯示。與仍“僅”支持 DP 1.4 的最新 Nvidia 卡相比,這是一個很大的優勢。
此外,Navi 31 還可以通過兩個獨立的編碼器/解碼器對 AV1 編碼和解碼進行硬件加速,從而可以同時對兩個視頻流進行轉碼或以每秒兩倍的幀數進行轉碼。
AMD 通過 Navi 31 圖形芯片打破僵局,為圖形處理器世界帶來了真正革命性的小芯片 GPU 設計。這將在未來證明有多成功還有待觀察。潛力當然是巨大的。
在現代 GPU 中堆疊樂高積木的原理和小芯片的模塊化聽起來確實很有未來感。
然而,主要目標應該是在圖形處理器的小芯片設計中組合多個 GCD,這應該會在未來將我們引入一個物理芯片上的多 GPU 配置時代。