Google 推出新 AI 模型 Gemini 2.5 Pro 於全球評測中表現突出

Google 最近推出了一款名為 Gemini 2.5 Pro 的先進 AI 模型,該模型在「人類最後考試」(Humanity’s Last Exam, HLE)中獲得了 18.8% 的高分,且在測試過程中未使用任何網絡搜索或其他工具。HLE 是一項嚴格的評估標準,由來自全球的專家和學者設計,旨在測試各個學科的深入知識。此前,OpenAI 的 o3-mini-high 在同一基準上獲得了 14% 的分數,同樣未使用任何工具。

Gemini 2.5 Pro 是一個思考模型,意味著它是一個推理模型,基於更大的基礎大型語言模型(LLM)構建,並使用增強學習和思維鏈提示。在 Gemini 2.5 Pro 之前,Google 還推出了更小型的 Gemini 2.0 Flash Thinking 模型。

Google 表示,Gemini 2.5 Pro 模型能夠「分析信息、得出邏輯結論、融入上下文和細微差別,並做出明智的決策」。

Gemini 2.5 Pro 在 LMArena 以代號「nebula」進行測試,現在已在 LMArena 排行榜上獲得了 1,443 的最高分,超越了 Grok 3 和 GPT-4.5。在其他基準測試中,Google 表示 Gemini 2.5 Pro 在編碼、數學和科學方面的表現也相當出色。

在 GPQA Diamond 中,Gemini 2.5 Pro 獲得了 84% 的分數;在 AIME 2025 中,該模型達到了 86.7%。即使在測試解決真實世界軟件問題能力的 SWE-bench 驗證基準中,Gemini 2.5 Pro 也取得了 63.8% 的分數,僅次於 Claude 3.7 Sonnet Extended Thinking 的 70.3%。

Google 表示,這款新的 Gemini 2.5 Pro 模型具備高級編碼和推理能力,並將向 Gemini 高級用戶推出。希望免費測試 Gemini 2.5 Pro 模型的用戶可以前往 Google AI Studio,並在下拉菜單中選擇「Gemini 2.5 Pro Experimental 03-25」模型。

【教學】免費使用 ChatGPT-4 的 6 個方法

【說明】4 個方法,讓你的 iPhone / Android 在香港無需 VPN 就能用 ChatGPT

【教學】如何在香港申請 Google Gemini 及訂閱 Google Gemini Advanced

【整理】Google Gemini 語音指令:發 WhatsApp、開 Apps、打電話等等

十斗
十斗https://www.techritual.com/author/tenten/
十斗在知名大學取得了計算機科學與工程學位,並在學術研究方面表現出色。她的研究領域包括人工智能、機器學習和數據科學。一斗為十升,一升為十合,一合為十分之一升。謝靈運言天下才學一石,曹植占八斗,以此讚譽。後用以比喻才學極高。