在 2024 年 12 月,OpenAI 宣佈推出其最先進的推理 AI 模型 o3,並表示該模型將在適當的安全測試後發佈。經過四個月的等待,OpenAI 現在已經推出了完整的 o3 AI 模型。同時,OpenAI 也發佈了下一代的 o4-mini(及 o4-mini-high)推理模型。
在這四個月內,OpenAI 對 o3 模型進行了進一步的改進,並表示 o3 是該公司開發的「最強大的推理模型」。o3 和 o4-mini 模型均可在 ChatGPT 中使用多種代理工具,包括網絡搜索、Python 工具等。這些推理模型還能夠分析圖像。o3 和 o4-mini 都經過訓練,以根據任務選擇合適的工具。
OpenAI 表示,o3 在編碼、數學、科學以及圖像、圖表和圖形分析等視覺任務中設定了新的基準。早期測試者指出,o3 能夠「生成並批判性地評估新假設,特別是在生物學、數學和工程領域」。
模型 | AIME 2025 | GPQA Diamond | Humanity’s Last Exam (無工具) | Humanity’s Last Exam (有工具) | SWE-Bench Verified |
---|---|---|---|---|---|
o3 | 不適用 | 83.3 | 20.32 | 24.9 | 69.1% |
o4-mini | 99.5% | 81.4 | 不適用 | 不適用 | 不適用 |
另一方面,新的 o4-mini 是一個較小的模型,旨在提高速度和成本效益。它在數學、編碼和視覺任務中表現優異。事實上,o4-mini 模型在獲得 Python 解釋器的情況下,達到了 AIME 2025 的 99.5%。
在基準測試方面,兩個模型幾乎達到了 AIME 2024 和 2025 的飽和。然而,在 GPQA Diamond 上,o3 得分為 83.3,而 o4-mini 得分為 81.4。在 Humanity’s Last Exam 中,o3(無工具)得分為 20.32,使用工具後得分為 24.9。最後,在 SWE-Bench Verified 中,o3 模型得分為 69.1%,高於 Google 的 Gemini 2.5 Pro(63.8%)。
在多模態基準測試中,這兩個模型表現競爭力十足,並在 MMMU、MathVista 和 CharXiv-Reasoning 中達到了高準確率。
此外,OpenAI 還推出了 Codex,這是一種新的命令行代理工具,與 Anthropic 的 Claude Code 類似。用戶可以從終端運行它,並利用 o3 和 o4-mini 進行多模態推理。
o3 和 o4-mini 目前已開始向 ChatGPT Plus、Pro 和 Team 用戶推送,兩個新模型將取代 o1、o3-mini 和 o3-mini-high。OpenAI 表示,ChatGPT Enterprise 和 Edu 用戶將在一週內獲得訪問權限。值得慶幸的是,o4-mini 也將向免費版 ChatGPT 用戶開放,通過「Think」按鈕可進入。
OpenAI 還保證,o3-pro 將在幾週內推出,並支持所有工具。與此同時,ChatGPT Pro 用戶可以繼續使用 o1-pro 模型。
OpenAI 的 o3 推理模型在 2024 年的公告中首次突破了 ARC-AGI 基準,並在高計算配置下,在 ARC-AGI 半私有評估集上獲得了 87.5% 的驚人得分。ARC-AGI 的創建者 François Chollet 在一篇博客中指出:
這不僅僅是增量改進,而是真正的突破,標誌著 AI 能力的質量變化,相較於 LLMs 之前的限制。o3 是一個能夠適應從未遇到過的任務的系統,無疑在 ARC-AGI 領域接近人類水平的表現。
然而,還有報導指出,o3 的訓練使用了 75% 的 ARC-AGI 公共訓練集,這引發了關於 o3 的性能在多大程度上依賴於通用智能或基準特定調整的問題。
儘管如此,來自《信息報》的最新報導顯示,o3 能夠融合來自多個領域的信息,類似於 Nikola Tesla。它能夠在核聚變和病原體檢測等領域提出新穎的科學想法和實驗。事實上,OpenAI 報告稱其能力足以證明每月 $20,000 / 約 HK$ 156,000 的定價層級,並稱其為「博士級 AI」。
日本電話卡推介 / 台灣電話卡推介
一㩒即做:香港網速測試 SpeedTest HK