研究發現:AI 影像訓練數據集發現包含兒童性虐待圖像

AI影像訓練數據集發現包含兒童性虐待圖像,史丹佛大學的網絡觀察所發現,這可能讓AI模型生成有害內容。Stability AI創始人Stable Diffusion使用的LAION-5B數據集,包含至少1,679張從社交媒體帖子和熱門成人網站中爬取的非法圖像。

研究人員於2023年9月開始對LAION數據集進行調查,以了解是否存在任何兒童性虐待材料(CSAM)。他們通過圖像的哈希值或識別符進行查找。這些哈希值被發送到像PhotoDNA這樣的CSAM檢測平台,並由加拿大兒童保護中心進行驗證。

根據LAION網站的說法,該數據集不保留圖像的存儲庫。它僅索引互聯網並包含圖像的連結和替代文本。Google最初版本的Imagen文本到圖像AI工具僅用於研究,使用了LAION數據集的不同變體,稱為LAION-400M,這是5B的較舊版本。該公司表示,後續的版本不再使用LAION數據集。史丹佛的報告指出,Imagen的開發人員發現400M包含「各種不當內容,包括色情圖像、種族歧視言論和有害的社會刻板印象」。

管理該數據集的非營利組織LAION告訴彭博社,他們對有害內容採取「零容忍」政策,並將暫時從網上移除這些數據集。Stability AI告訴該出版物,他們有反對濫用平台的指引。該公司表示,雖然他們使用LAION-5B來訓練模型,但他們僅關注數據集的一部分並對其進行了安全調整。

史丹佛的研究人員表示,CSAM的存在不一定會影響使用該數據集訓練的模型的輸出。然而,模型總是有可能從圖像中學到一些東西。

報告中提到:「CSAM的重複相同實例的存在也是有問題的,特別是由於它強化了特定受害者的圖像」。

研究人員承認,從使用該數據集訓練的AI模型中完全刪除問題內容將是困難的,尤其是對於Stable Diffusion 1.5等使用LAION-5B訓練的模型。他們建議應該停止使用這些模型,並盡可能停止分發。Google發布了新版本的Imagen,但並未公開該版本使用的數據集,只是聲明不再使用LAION。

美國各州檢察長呼籲國會成立委員會,調查AI對兒童剝削的影響,並禁止生成AI生成的CSAM。

按此即看更多:AI 人工智能 新聞
按此即看更多:
免費使用 ChatGPT-4 的 6 個方法
按此即看更多:5 個「香港」免費使用 ChatGPT-4 的方法

十斗
十斗https://www.techritual.com/author/tenten/
十斗在知名大學取得了計算機科學與工程學位,並在學術研究方面表現出色。她的研究領域包括人工智能、機器學習和數據科學。一斗為十升,一升為十合,一合為十分之一升。謝靈運言天下才學一石,曹植占八斗,以此讚譽。後用以比喻才學極高。