AI影像訓練數據集發現包含兒童性虐待圖像,史丹佛大學的網絡觀察所發現,這可能讓AI模型生成有害內容。Stability AI創始人Stable Diffusion使用的LAION-5B數據集,包含至少1,679張從社交媒體帖子和熱門成人網站中爬取的非法圖像。
研究人員於2023年9月開始對LAION數據集進行調查,以了解是否存在任何兒童性虐待材料(CSAM)。他們通過圖像的哈希值或識別符進行查找。這些哈希值被發送到像PhotoDNA這樣的CSAM檢測平台,並由加拿大兒童保護中心進行驗證。
根據LAION網站的說法,該數據集不保留圖像的存儲庫。它僅索引互聯網並包含圖像的連結和替代文本。Google最初版本的Imagen文本到圖像AI工具僅用於研究,使用了LAION數據集的不同變體,稱為LAION-400M,這是5B的較舊版本。該公司表示,後續的版本不再使用LAION數據集。史丹佛的報告指出,Imagen的開發人員發現400M包含「各種不當內容,包括色情圖像、種族歧視言論和有害的社會刻板印象」。
管理該數據集的非營利組織LAION告訴彭博社,他們對有害內容採取「零容忍」政策,並將暫時從網上移除這些數據集。Stability AI告訴該出版物,他們有反對濫用平台的指引。該公司表示,雖然他們使用LAION-5B來訓練模型,但他們僅關注數據集的一部分並對其進行了安全調整。
史丹佛的研究人員表示,CSAM的存在不一定會影響使用該數據集訓練的模型的輸出。然而,模型總是有可能從圖像中學到一些東西。
報告中提到:「CSAM的重複相同實例的存在也是有問題的,特別是由於它強化了特定受害者的圖像」。
研究人員承認,從使用該數據集訓練的AI模型中完全刪除問題內容將是困難的,尤其是對於Stable Diffusion 1.5等使用LAION-5B訓練的模型。他們建議應該停止使用這些模型,並盡可能停止分發。Google發布了新版本的Imagen,但並未公開該版本使用的數據集,只是聲明不再使用LAION。
美國各州檢察長呼籲國會成立委員會,調查AI對兒童剝削的影響,並禁止生成AI生成的CSAM。
按此即看更多:AI 人工智能 新聞
按此即看更多:免費使用 ChatGPT-4 的 6 個方法
按此即看更多:5 個「香港」免費使用 ChatGPT-4 的方法