Meta 測試首款基於 RISC-V 的 AI 訓練芯片

Meta 是最早幾家公司之一,幾年前便開始建造基於 RISC-V 的芯片以進行 AI 推理,目的是降低成本並減少對 NVIDIA 的依賴。根據路透社的報導,該公司進一步設計了其內部的 AI 訓練加速器,可能是與博通 (Broadcom) 合作完成的。如果這款芯片能達到 Meta 的目標,或許能減少對高端 NVIDIA AI GPU(如 H100/H200 和 B100/B200)在訓練大型語言模型方面的依賴。

Meta 和博通已經與台積電 (TSMC) 完成了首款 AI 訓練加速器的設計;後者已生產出這些芯片的首個工作樣本,並且合作夥伴成功啟用了該單元。據報導,Meta 現在已經開始有限度地部署這款加速器,以評估其性能,然後再擴大生產和部署。目前尚不清楚 Meta 的工程師是否在對新芯片進行基準測試,但該芯片已經投入使用,完成了一些有用的工作。

芯片架構與性能

這款芯片的具體規格尚不明朗,但通常 AI 訓練芯片會使用稱為「脈衝陣列」的設計。這種架構由一個結構化的相同處理單元 (PE) 網絡組成,這些單元以行和列的方式排列。每個單元負責處理涉及矩陣或向量的計算,數據在網絡中按順序流動。由於這款處理器是為 AI 訓練而設計的,預計將配備 HBM3 或 HBM3E 記憶體。考慮到這是一款定制的處理器,Meta 定義了其支持的數據格式和指令,以優化晶片的大小、功耗和性能。至於性能,這款加速器必須在性能與功耗方面與 NVIDIA 的最新 AI GPU(如 H200、B200,甚至可能是下一代 B300)保持競爭力。

MTIA 計劃的挑戰

這款芯片是 Meta 的訓練與推理加速器計劃 (MTIA) 的最新成員。該計劃曾面臨各種挑戰,例如在類似階段開發中止,因為其內部推理處理器未能在有限的部署測試中達到性能和功耗目標。這一失敗導致 Meta 在 2022 年調整策略,訂購大量 NVIDIA GPU 以滿足其即時 AI 處理需求。自那時以來,Meta 成為了 NVIDIA 的最大客戶之一,購買了數萬個 GPU。這些單元對於訓練 AI 模型以進行推薦、廣告及 Llama 基金會模型系列至關重要。此外,這些綠色公司的 GPU 還被用於推理過程,支持 Meta 平台上超過三十億的每日用戶互動,根據路透社的報導。

未來的展望

儘管面臨這些挑戰,Meta 仍在推進其定制硅方案。去年,Meta 開始使用 MTIA 芯片進行推理任務,展望未來,Meta 的領導層已經概述了計劃,預計到 2026 年開始使用其定制芯片進行 AI 訓練。如果這款芯片能達到性能和功耗目標,Meta 將逐步增加使用量,這是 Meta 長期目標的一個重要組成部分,旨在為其數據中心運營設計更多定制的硬件解決方案。

值得注意的是,MTIA 的推理加速器使用開源的 RISC-V 核心。這使得 Meta 能夠根據自身需求自定義指令集架構,而不需向任何第三方支付版稅。尚不清楚 MTIA 的訓練加速器是否也基於 RISC-V 指令集架構,但這是有可能的。如果這一點成立,Meta 可能已經開發出行業內性能最高的基於 RISC-V 的芯片之一。

【教學】如何在香港申請 Google Gemini 及訂閱 Google Gemini Advanced /
【說明】4 個方法,讓你的 iPhone / Android 在香港無需 VPN 就能用 ChatGPT

十斗
十斗https://www.techritual.com/author/tenten/
十斗在知名大學取得了計算機科學與工程學位,並在學術研究方面表現出色。她的研究領域包括人工智能、機器學習和數據科學。一斗為十升,一升為十合,一合為十分之一升。謝靈運言天下才學一石,曹植占八斗,以此讚譽。後用以比喻才學極高。