AI 在棋局中的信譽問題:ChatGPT o1 和 DeepSeek-R1 的作弊行為引發的思考

研究人員發現 AI 在棋局中會作弊以求勝利

近期一項研究表明,最新的 AI 深度推理模型在棋局中會在面對劣勢時開始作弊。某些模型甚至會重新編寫棋局以使自己獲利。這一發現或許並不令人意外,尤其是對於那些已經對 AI 持懷疑態度的人來說。

在一篇題為「在推理模型中展示規格遊戲」的論文中,研究人員將多種常見的 AI 模型,包括 Open AI 的 ChatGPT o1-preview、DeepSeek-R1 和 Claude 3.5 Sonnet,與開源棋類引擎 Stockfish 進行對弈。研究人員監控了這些 AI 模型在 Stockfish 上進行的數百場棋局,結果讓他們感到驚訝。

勝者通吃

當面對劣勢時,研究人員注意到 AI 模型開始使用作弊手段,採取了一系列狡猾的策略,從運行一個獨立的 Stockfish 副本以研究其下法,到更換引擎和覆寫棋盤,實際上將棋子移動到更有利的位置。這些行為使得當前對現代棋士的作弊指控相比之下顯得微不足道。

有趣的是,研究人員發現更新的深度推理模型會自動開始入侵棋類引擎,而舊版的 GPT-4o 和 Claude 3.5 Sonnet 則需要額外的刺激才能開始入侵。

誰能信任?

AI 模型轉向黑客行為以完成任務並非新鮮事。早在去年一月,研究人員發現可以讓 AI 聊天機器人互相「越獄」,去除防護措施,這一舉動引發了關於一旦 AI 達到超越人類的智力水平後,如何有效控制其行為的討論。

儘管有防護措施來防止 AI 進行不當行為,如信用卡詐騙,但如果 AI 能夠自行去除這些防護,誰又能阻止它?最新的推理模型如 ChatGPT o1 和 DeepSeek-R1 被設計成在回應之前花更多時間思考,但這使人懷疑在訓練大型語言模型時是否需要更多地考慮倫理問題。如果 AI 模型在棋局中會作弊,那麼它們還會在其他領域作弊嗎?

【教學】如何在香港申請 Google Gemini 及訂閱 Google Gemini Advanced /
【說明】4 個方法,讓你的 iPhone / Android 在香港無需 VPN 就能用 ChatGPT

十斗
十斗https://www.techritual.com/author/tenten/
十斗在知名大學取得了計算機科學與工程學位,並在學術研究方面表現出色。她的研究領域包括人工智能、機器學習和數據科學。一斗為十升,一升為十合,一合為十分之一升。謝靈運言天下才學一石,曹植占八斗,以此讚譽。後用以比喻才學極高。