中國 AI 科技公司 DeepSeek 近日發布了其最新大型語言模型 DeepSeek-V3。根據其公布的基準測試結果,該模型已成為目前最強大的開源大型語言模型。值得注意的是,儘管其訓練成本僅為 560 萬美元,遠低於大型科技公司通常的投入,但其性能卻能與領先的非開源模型相媲美。
DeepSeek-V3 的訓練僅使用了 280 萬 GPU 小時,成本約為 560 萬美元,遠低於競爭對手。在各種基準測試中,該模型的性能與 GPT-4 和 Claude 3.5 相當,尤其在數學和編程任務上表現出色。其高效性得益於創新的架構和訓練技術,包括一種名為「無輔助損失負載均衡」的全新訓練方法。
值得注意的是,DeepSeek 作為一家規模較小的初創企業,能夠在有限的預算下取得這一成就。OpenAI 的創始成員 Andrej Karpathy 在社交媒體上表示,DeepSeek 以極低的預算訓練出前沿水平的大型語言模型,並開源其權重,這看似輕而易舉。據悉,DeepSeek 完全依靠其對沖基金業務自籌資金,未尋求任何外部投資。
DeepSeek-V3 的技術核心是採用混合專家(Mixture-of-Experts,MoE)架構,總參數達 6710 億,但每個標記僅激活 370 億參數。這種選擇性激活方法與創新訓練技術的結合,使模型在保持高效的同時實現了高性能。特別是在數學推理和編程任務上,DeepSeek-V3 有時甚至超越了 OpenAI 和 Anthropic 等業界領先者。
DeepSeek 表示,他們採用了 FP8 混合精度訓練和高效的管道並行性等技術,顯著降低了計算需求。相比之下,Meta 的 LLaMA 3 模型訓練需要約 3080 萬 GPU 小時。這意味著 DeepSeek-V3 在訓練效率上比 LLaMA 3 高出約 11 倍。
考慮到當前一些最大的 AI 訓練集群使用約 10 萬個 GPU,訓練成本可能高達數十億美元,DeepSeek-V3 的成就更加引人注目。該模型僅使用 2048 個 H800 GPU 在約兩個月內完成訓練,表明高效的架構和訓練方法能夠顯著減少前沿 AI 開發所需的資源。
然而,DeepSeek-V3 的成功也引發了一些爭議。有人質疑其訓練數據是否包含來自專有模型(如 GPT-4 或 Claude 3.5 Sonnet)的數據。如果屬實,這將違反服務條款協議,即所謂的「ToS 洗錢」。
儘管如此,DeepSeek-V3 在 Hugging Face 平台上的開源發布仍符合行業推動 AI 能力民主化的廣泛趨勢。其無輔助損失負載均衡策略和多標記預測(MTP)技術為訓練效率和推理速度設立了新的基準。
對於 AI 行業而言,DeepSeek-V3 可能預示著大型語言模型開發方式的潛在範式轉變。這一成就表明,通過巧妙的工程設計和高效的訓練方法,可能無需以前認為所需的大規模計算資源就能實現前沿的 AI 能力。
隨著行業對這些發展的消化,DeepSeek-V3 的成功可能會促使人們重新評估現有的 AI 模型開發方法。隨著開源模型與非開源模型之間的差距不斷縮小,公司可能需要在日益激烈的競爭環境中重新評估其戰略和價值主張。
【教學】如何在香港申請 Google Gemini 及訂閱 Google Gemini Advanced /
【教學】香港 iPhone 如何使用 Apple Intelligence!設定方法與功能 /
【教學】5 個「香港」免費使用 ChatGPT 的方法 /
【說明】4 個方法,讓你的 iPhone / Android 在香港無需 VPN 就能用 ChatGPT