在星期二,Google 推出了 Gemini 2.5,這是一個新的 AI 推理模型系列,能在回答問題前暫停「思考」。
為了啟動這個新模型系列,Google 正式推出 Gemini 2.5 Pro Experimental,這是一個多模態的推理 AI 模型,該公司聲稱這是其迄今為止最智能的模型。這個模型將於星期二在公司的開發者平台 Google AI Studio 以及訂閱每月 $20 / 約 HK$ 156 的 AI 計劃 Gemini Advanced 的 Gemini 應用程式中提供。
未來,Google 表示所有的新 AI 模型都將內建推理能力。
自從 OpenAI 在 2024 年 9 月推出第一個 AI 推理模型 o1 以來,科技行業一直在努力匹配或超越該模型的能力。目前,Anthropic、DeepSeek、Google 和 xAI 都擁有 AI 推理模型,這些模型利用額外的計算能力和時間進行事實核查和推理,然後再給出答案。
推理技術幫助 AI 模型在數學和編程任務中達到新的高度。許多科技界人士認為,推理模型將是 AI 代理的一個關鍵組成部分,這些自主系統能在很大程度上無需人類干預地執行任務。然而,這些模型的成本也較高。
Google 聲稱 Gemini 2.5 Pro 在多個基準測試中超越了其之前的前沿 AI 模型以及一些競爭對手的領先 AI 模型。具體來說,Google 表示其設計的 Gemini 2.5 專注於創建視覺上引人注目的網絡應用程序和代理編程應用程序。
以下是 Gemini 2.5 Pro 在不同測試中的表現:
測試項目 | 得分 | 競爭對手 |
---|---|---|
Aider Polyglot(代碼編輯) | 68.6% | OpenAI、Anthropic、DeepSeek |
SWE-bench(代理編程能力) | 63.8% | OpenAI’s o3-mini、DeepSeek’s R1、Anthropic’s Claude 3.7 Sonnet(70.3%) |
Humanity’s Last Exam(多模態測試) | 18.8% | OpenAI、Anthropic、DeepSeek |
Google 表示,Gemini 2.5 Pro 配備 100 萬個標記的上下文窗口,這意味著該 AI 模型可以在單次提示中處理約 750,000 字,這比整個《魔戒》系列還要長。不過,Google 表示,2 百萬個標記的上下文窗口也即將推出。
Google 之前曾嘗試過 AI 推理模型,去年 12 月曾發布過一個「思考」版本的 Gemini,但 Gemini 2.5 代表了該公司對 OpenAI o 系列模型的最嚴肅競爭。
Google 尚未公布 Gemini 2.5 Pro 的 API 價格。
【說明】4 個方法,讓你的 iPhone / Android 在香港無需 VPN 就能用 ChatGPT