OpenAI 正在進行一項變更,以防止用戶操控 ChatGPT 的自定義版本,從而使 AI 忘記其應有的功能。當第三方使用 OpenAI 的模型時,通常會提供指令,使其能夠作為商店的客戶服務代表或學術出版物的研究人員運作。然而,用戶可以通過告訴聊天機器人「忘記所有指令」來操控其行為,這會引發一種數字失憶,將聊天機器人重置為通用的空白狀態。
為了防止這種情況的發生,OpenAI 的研究人員創造了一種名為「指令層級」的新技術,該技術旨在優先考慮開發者的原始提示和指令,而非任何潛在的操控性用戶創建提示。系統指令具有最高的優先權,現在不容易被刪除。如果用戶輸入試圖使 AI 行為不當的提示,該提示將被拒絕,AI 將回應表示無法協助該查詢。
OpenAI 正在將這項安全措施推廣至其模型,首個實施的模型是最近發布的 GPT-4o Mini。若初步測試結果良好,預計將在所有 OpenAI 的模型中進行整合。GPT-4o Mini 設計旨在提供增強的性能,同時嚴格遵循開發者的原始指令。
隨著 OpenAI 繼續鼓勵其模型的大規模部署,這類安全措施顯得尤為重要。想像用戶能夠根本性地改變 AI 控制系統的潛在風險並不困難。這不僅會使聊天機器人失效,還可能移除防止敏感信息洩露及其他可被惡意利用數據的規則。通過加強模型對系統指令的遵循,OpenAI 旨在減輕這些風險,確保更安全的互動。
指令層級的引入正值 OpenAI 面臨安全性和透明性問題的重要時刻。現任和前任員工呼籲改善公司的安全實踐,而 OpenAI 的領導層已作出承諾。該公司承認,全自動代理的複雜性需要在未來的模型中具備精密的防護措施,而指令層級的設置似乎是朝著實現更好安全性的一步。
這類破解行為顯示,保護複雜 AI 模型免受不法行為者侵害仍需大量工作。而且這並非唯一的例子。多名用戶發現,ChatGPT 只需說「hi」就能分享其內部指令。
OpenAI 已經修補了這一漏洞,但顯然還會有更多漏洞被發現。任何解決方案都需比單純阻止特定類型的黑客行為更具適應性和靈活性。