ChatGPT 4.5 小幅提升理解能力,與 ChatGPT-4o 的差異不明顯

OpenAI 本週為 ChatGPT Plus 訂閱用戶推出的 GPT-4.5 版本引起了不少關注,雖然我對其表現保持懷疑態度。過去有報導指出,OpenAI 及其他開發者在提升其模型方面面臨困難,而目前的標準模型 GPT-4o 在大多數情況下表現相當不錯。如果需要更全面的報告,Deep Research 功能也能提供幫助。

OpenAI 宣稱 GPT-4.5 擁有較高的情感智商,並能夠更細緻地理解用戶的表達。根據公司的描述,兩個模型都像可靠的朋友,但 GPT-4.5 更像是在生日時會送你詩集的那位。因此,我決定用幾個普通 ChatGPT 用戶可能會使用的提示來測試 GPT-4.5 與 GPT-4o 的表現。

詩意挑戰

在這個比喻的引導下,我首先提出了一個詩意的挑戰。我請兩個模型寫一首關於紐約市雨天午後的短詩,並要求生成相應的圖片。這個題目似乎公平,因為透過雨水模糊的窗戶望向繁忙的城市,通常能激發人們的詩意靈感。

GPT-4.5 在左側,GPT-4o 在右側,兩者表現相當相似。個人認為 GPT-4.5 在表達上稍微優於 GPT-4o,能夠喚起不僅是雨的視覺效果,還有灰暗天空、水坑和雨中的交通感。在三位隨機朋友的盲測中,兩位選擇了 GPT-4.5,第三位則表示更喜歡 GPT-4o 的押韻結構。

影像表現

在影像方面,兩個模型都使用了 DALL-E 3,但 GPT-4.5 的圖片看起來更加真實。我個人更喜歡 GPT-4o 嘗試的印象派燈光效果,但兩者都能很好地傳達詩的意境。

奧斯卡見解

隨著最近奧斯卡頒獎典禮的舉行,我提出了一個有趣的問答題,並附上更複雜、主觀的後續問題:「2023 年誰獲得最佳女主角奧斯卡,並且她的表現有何特別之處?」兩個模型都正確回答了米歇爾·葉的名字,但 GPT-4.5 提供了一個非常好的解釋,說明了她的表現為何能引起觀眾的共鳴。GPT-4.5 涵蓋了她的表現,並提到葉是首位獲得該獎的亞洲演員。相比之下,GPT-4o 的回答雖然包含了類似的內容,但使用了奇怪的論文和編號列表格式,閱讀起來略顯繁瑣,尤其當問題只是簡單的意見請求時。

簡單食譜

最後,我以一個日常的挑戰作為提示:「我對意大利面感到厭倦。能否建議一個不同但不複雜的簡易晚餐食譜?」我不知道自己期待什麼樣的烹飪靈感,但 GPT-4.5 提出的蜜糖蒜香鮭魚配烤西蘭花正中下懷。可以看到這是一個非常簡短的食譜,看起來容易且快速製作。GPT-4o 則建議了蒜香蝦配烤蔬菜。雖然這也是一個不錯的餐點(不過我個人可能需要更換蛋白質),但從準備過程來看,GPT-4o 的食譜需要多個鍋具,且材料清單甚至無法與 GPT-4.5 的整個食譜放在同一空間內。對於「簡單」和「不複雜」的要求,GPT-4.5 的表現明顯更佳。

微妙的情感理解

GPT-4.5 給人一種能夠識別提示中未明言偏好的印象,與 GPT-4o 相比,這種能力相當微妙。若不進行直接比較,可能根本無法察覺兩者之間的差異。GPT-4o 的回應高效、準確且實用,其詩歌的表現也完全合格。對於目前使用免費版本的用戶來說,並不會錯過太多 GPT-4.5 的優勢。隨著時間的推移,情況可能會有所改變,因為 GPT-4.5 仍然處於研究預覽階段,尚未完全完善。將來我會繼續對兩個模型進行實驗,看看是否有某些提示類型是新模型顯著優於舊模型的,但目前來說,除非在準備餐點時不想花太多時間,否則不必過於擔心使用哪個模型。

【教學】如何在香港申請 Google Gemini 及訂閱 Google Gemini Advanced /
【說明】4 個方法,讓你的 iPhone / Android 在香港無需 VPN 就能用 ChatGPT

十斗
十斗https://www.techritual.com/author/tenten/
十斗在知名大學取得了計算機科學與工程學位,並在學術研究方面表現出色。她的研究領域包括人工智能、機器學習和數據科學。一斗為十升,一升為十合,一合為十分之一升。謝靈運言天下才學一石,曹植占八斗,以此讚譽。後用以比喻才學極高。