中國 AI 公司 DeepSeek-V3 以低成本實現前沿人工智能性能

中國 AI 科技公司 DeepSeek 近日發布了其最新大型語言模型 DeepSeek-V3。根據其公布的基準測試結果,該模型已成為目前最強大的開源大型語言模型。值得注意的是,儘管其訓練成本僅為 560 萬美元,遠低於大型科技公司通常的投入,但其性能卻能與領先的非開源模型相媲美。

DeepSeek-V3 的訓練僅使用了 280 萬 GPU 小時,成本約為 560 萬美元,遠低於競爭對手。在各種基準測試中,該模型的性能與 GPT-4 和 Claude 3.5 相當,尤其在數學和編程任務上表現出色。其高效性得益於創新的架構和訓練技術,包括一種名為「無輔助損失負載均衡」的全新訓練方法。

值得注意的是,DeepSeek 作為一家規模較小的初創企業,能夠在有限的預算下取得這一成就。OpenAI 的創始成員 Andrej Karpathy 在社交媒體上表示,DeepSeek 以極低的預算訓練出前沿水平的大型語言模型,並開源其權重,這看似輕而易舉。據悉,DeepSeek 完全依靠其對沖基金業務自籌資金,未尋求任何外部投資。

DeepSeek-V3 的技術核心是採用混合專家(Mixture-of-Experts,MoE)架構,總參數達 6710 億,但每個標記僅激活 370 億參數。這種選擇性激活方法與創新訓練技術的結合,使模型在保持高效的同時實現了高性能。特別是在數學推理和編程任務上,DeepSeek-V3 有時甚至超越了 OpenAI 和 Anthropic 等業界領先者。

DeepSeek 表示,他們採用了 FP8 混合精度訓練和高效的管道並行性等技術,顯著降低了計算需求。相比之下,Meta 的 LLaMA 3 模型訓練需要約 3080 萬 GPU 小時。這意味著 DeepSeek-V3 在訓練效率上比 LLaMA 3 高出約 11 倍。

考慮到當前一些最大的 AI 訓練集群使用約 10 萬個 GPU,訓練成本可能高達數十億美元,DeepSeek-V3 的成就更加引人注目。該模型僅使用 2048 個 H800 GPU 在約兩個月內完成訓練,表明高效的架構和訓練方法能夠顯著減少前沿 AI 開發所需的資源。

然而,DeepSeek-V3 的成功也引發了一些爭議。有人質疑其訓練數據是否包含來自專有模型(如 GPT-4 或 Claude 3.5 Sonnet)的數據。如果屬實,這將違反服務條款協議,即所謂的「ToS 洗錢」。

儘管如此,DeepSeek-V3 在 Hugging Face 平台上的開源發布仍符合行業推動 AI 能力民主化的廣泛趨勢。其無輔助損失負載均衡策略和多標記預測(MTP)技術為訓練效率和推理速度設立了新的基準。

對於 AI 行業而言,DeepSeek-V3 可能預示著大型語言模型開發方式的潛在範式轉變。這一成就表明,通過巧妙的工程設計和高效的訓練方法,可能無需以前認為所需的大規模計算資源就能實現前沿的 AI 能力。

隨著行業對這些發展的消化,DeepSeek-V3 的成功可能會促使人們重新評估現有的 AI 模型開發方法。隨著開源模型與非開源模型之間的差距不斷縮小,公司可能需要在日益激烈的競爭環境中重新評估其戰略和價值主張。

【教學】如何在香港申請 Google Gemini 及訂閱 Google Gemini Advanced /
【教學】香港 iPhone 如何使用 Apple Intelligence!設定方法與功能 /
【教學】5 個「香港」免費使用 ChatGPT 的方法 /
【說明】4 個方法,讓你的 iPhone / Android 在香港無需 VPN 就能用 ChatGPT

十斗
十斗https://www.techritual.com/author/tenten/
十斗在知名大學取得了計算機科學與工程學位,並在學術研究方面表現出色。她的研究領域包括人工智能、機器學習和數據科學。一斗為十升,一升為十合,一合為十分之一升。謝靈運言天下才學一石,曹植占八斗,以此讚譽。後用以比喻才學極高。