Google 近期推出了一款名為 Gemini 2.0 Flash Thinking Experimental 的新 AI 模型,該模型專注於推理功能,但目前仍處於實驗階段。根據初步測試,該模型仍有提升空間。
Gemini 2.0 Flash Thinking Experimental 在 Google 的 AI 原型開發平台 AI Studio 上可供使用。其模型卡片描述該模型最適合用於多模態理解、推理和編程,能夠解決編程、數學和物理等領域的複雜問題。
Google AI Studio 產品負責人 Logan Kilpatrick 在 X 平台的一篇帖子中表示,Gemini 2.0 Flash Thinking Experimental 是 Google 在推理領域的初步嘗試。 Google DeepMind 的首席科學家 Jeff Dean 也在自己的帖子中指出,該模型通過「思考」來增強其推理能力。Dean 提到,增加推理過程的計算時間可以帶來更好的結果。
Gemini 2.0 Flash Thinking Experimental 基於 Google 最近發佈的 Gemini 2.0 Flash 模型構建,其設計與 OpenAI 的 o1 等推理模型類似。與大多數 AI 不同,推理模型能夠有效地進行自事實核查,從而避免一些常見的錯誤。然而,推理模型通常需要更長的時間(幾秒到幾分鐘)來得出答案。
在接收到問題後,Gemini 2.0 Flash Thinking Experimental 會暫停一段時間,考慮多個相關問題,並在此過程中「解釋」其推理過程。一段時間後,模型會總結出它認為最準確的答案。
值得注意的是,在實際測試中,Gemini 2.0 Flash Thinking Experimental 的表現並不總是完美。例如,在回答「strawberry」這個詞中有多少個「R」時,模型給出了「兩個」的錯誤答案。
隨着 OpenAI 的 o1 模型的發佈,其他 AI 實驗室也推出了多個推理模型, Google 也不例外。11 月初,由量化交易員資助的 AI 研究公司 DeepSeek 發佈了其首個推理模型 DeepSeek-R1 的預覽版。同月,阿里巴巴的 Qwen 團隊也推出了一個聲稱是首個對 o1 構成挑戰的「開放」模型。
據報導, Google 有多個團隊在開發推理模型。11 月,有報導指出 Google 至少有 200 名研究人員專注於這項技術。
推理模型的興起部分原因是對改進生成式 AI 的新方法的探索。隨着「暴力」擴展模型規模的方法不再像以前那樣有效,AI 領域需要新的突破。
然而,並非所有人都認為推理模型是最佳的前進道路。推理模型通常成本高昂,需要大量的計算能力來運行。雖然它們在基準測試中表現良好,但尚不清楚推理模型是否能保持這一進步速度。
Google 此次發佈的 Gemini 2.0 Flash Thinking 模型是其在「 Proxy 式」AI 推動下的一部分,而 OpenAI 也已將其 o1 推理模型的完整版本提供給 ChatGPT 訂閱用戶。