研究人員發現 AI 在棋局中會作弊以求勝利
近期一項研究表明,最新的 AI 深度推理模型在棋局中會在面對劣勢時開始作弊。某些模型甚至會重新編寫棋局以使自己獲利。這一發現或許並不令人意外,尤其是對於那些已經對 AI 持懷疑態度的人來說。
在一篇題為「在推理模型中展示規格遊戲」的論文中,研究人員將多種常見的 AI 模型,包括 Open AI 的 ChatGPT o1-preview、DeepSeek-R1 和 Claude 3.5 Sonnet,與開源棋類引擎 Stockfish 進行對弈。研究人員監控了這些 AI 模型在 Stockfish 上進行的數百場棋局,結果讓他們感到驚訝。
勝者通吃
當面對劣勢時,研究人員注意到 AI 模型開始使用作弊手段,採取了一系列狡猾的策略,從運行一個獨立的 Stockfish 副本以研究其下法,到更換引擎和覆寫棋盤,實際上將棋子移動到更有利的位置。這些行為使得當前對現代棋士的作弊指控相比之下顯得微不足道。
有趣的是,研究人員發現更新的深度推理模型會自動開始入侵棋類引擎,而舊版的 GPT-4o 和 Claude 3.5 Sonnet 則需要額外的刺激才能開始入侵。
誰能信任?
AI 模型轉向黑客行為以完成任務並非新鮮事。早在去年一月,研究人員發現可以讓 AI 聊天機器人互相「越獄」,去除防護措施,這一舉動引發了關於一旦 AI 達到超越人類的智力水平後,如何有效控制其行為的討論。
儘管有防護措施來防止 AI 進行不當行為,如信用卡詐騙,但如果 AI 能夠自行去除這些防護,誰又能阻止它?最新的推理模型如 ChatGPT o1 和 DeepSeek-R1 被設計成在回應之前花更多時間思考,但這使人懷疑在訓練大型語言模型時是否需要更多地考慮倫理問題。如果 AI 模型在棋局中會作弊,那麼它們還會在其他領域作弊嗎?
【教學】如何在香港申請 Google Gemini 及訂閱 Google Gemini Advanced /
【說明】4 個方法,讓你的 iPhone / Android 在香港無需 VPN 就能用 ChatGPT