OpenAI 推出 o3 和 o4-mini，強調 o3 能夠生成新假設

在 2024 年 12 月，OpenAI 宣佈推出其最先進的推理 AI 模型 o3，並表示該模型將在適當的安全測試後發佈。經過四個月的等待，OpenAI 現在已經推出了完整的 o3 AI 模型。同時，OpenAI 也發佈了下一代的 o4-mini（及 o4-mini-high）推理模型。

在這四個月內，OpenAI 對 o3 模型進行了進一步的改進，並表示 o3 是該公司開發的「最強大的推理模型」。o3 和 o4-mini 模型均可在 ChatGPT 中使用多種代理工具，包括網絡搜索、Python 工具等。這些推理模型還能夠分析圖像。o3 和 o4-mini 都經過訓練，以根據任務選擇合適的工具。

OpenAI 表示，o3 在編碼、數學、科學以及圖像、圖表和圖形分析等視覺任務中設定了新的基準。早期測試者指出，o3 能夠「生成並批判性地評估新假設，特別是在生物學、數學和工程領域」。

模型	AIME 2025	GPQA Diamond	Humanity’s Last Exam (無工具)	Humanity’s Last Exam (有工具)	SWE-Bench Verified
o3	不適用	83.3	20.32	24.9	69.1%
o4-mini	99.5%	81.4	不適用	不適用	不適用

另一方面，新的 o4-mini 是一個較小的模型，旨在提高速度和成本效益。它在數學、編碼和視覺任務中表現優異。事實上，o4-mini 模型在獲得 Python 解釋器的情況下，達到了 AIME 2025 的 99.5%。

在基準測試方面，兩個模型幾乎達到了 AIME 2024 和 2025 的飽和。然而，在 GPQA Diamond 上，o3 得分為 83.3，而 o4-mini 得分為 81.4。在 Humanity’s Last Exam 中，o3（無工具）得分為 20.32，使用工具後得分為 24.9。最後，在 SWE-Bench Verified 中，o3 模型得分為 69.1%，高於 Google 的 Gemini 2.5 Pro（63.8%）。

在多模態基準測試中，這兩個模型表現競爭力十足，並在 MMMU、MathVista 和 CharXiv-Reasoning 中達到了高準確率。

此外，OpenAI 還推出了 Codex，這是一種新的命令行代理工具，與 Anthropic 的 Claude Code 類似。用戶可以從終端運行它，並利用 o3 和 o4-mini 進行多模態推理。

o3 和 o4-mini 目前已開始向 ChatGPT Plus、Pro 和 Team 用戶推送，兩個新模型將取代 o1、o3-mini 和 o3-mini-high。OpenAI 表示，ChatGPT Enterprise 和 Edu 用戶將在一週內獲得訪問權限。值得慶幸的是，o4-mini 也將向免費版 ChatGPT 用戶開放，通過「Think」按鈕可進入。

OpenAI 還保證，o3-pro 將在幾週內推出，並支持所有工具。與此同時，ChatGPT Pro 用戶可以繼續使用 o1-pro 模型。

OpenAI 的 o3 推理模型在 2024 年的公告中首次突破了 ARC-AGI 基準，並在高計算配置下，在 ARC-AGI 半私有評估集上獲得了 87.5% 的驚人得分。ARC-AGI 的創建者 François Chollet 在一篇博客中指出：

這不僅僅是增量改進，而是真正的突破，標誌著 AI 能力的質量變化，相較於 LLMs 之前的限制。o3 是一個能夠適應從未遇到過的任務的系統，無疑在 ARC-AGI 領域接近人類水平的表現。

然而，還有報導指出，o3 的訓練使用了 75% 的 ARC-AGI 公共訓練集，這引發了關於 o3 的性能在多大程度上依賴於通用智能或基準特定調整的問題。

儘管如此，來自《信息報》的最新報導顯示，o3 能夠融合來自多個領域的信息，類似於 Nikola Tesla。它能夠在核聚變和病原體檢測等領域提出新穎的科學想法和實驗。事實上，OpenAI 報告稱其能力足以證明每月 $20,000 / 約 HK$ 156,000 的定價層級，並稱其為「博士級 AI」。

日本電話卡推介 / 台灣電話卡推介
一㩒即做：香港網速測試 SpeedTest HK

OpenAI 推出 o3 和 o4-mini，強調 o3 能夠生成新假設

推薦內容

關於我們