研究發現：AI 影像訓練數據集發現包含兒童性虐待圖像

AI影像訓練數據集發現包含兒童性虐待圖像，史丹佛大學的網絡觀察所發現，這可能讓AI模型生成有害內容。Stability AI創始人Stable Diffusion使用的LAION-5B數據集，包含至少1,679張從社交媒體帖子和熱門成人網站中爬取的非法圖像。

研究人員於2023年9月開始對LAION數據集進行調查，以了解是否存在任何兒童性虐待材料（CSAM）。他們通過圖像的哈希值或識別符進行查找。這些哈希值被發送到像PhotoDNA這樣的CSAM檢測平台，並由加拿大兒童保護中心進行驗證。

根據LAION網站的說法，該數據集不保留圖像的存儲庫。它僅索引互聯網並包含圖像的連結和替代文本。Google最初版本的Imagen文本到圖像AI工具僅用於研究，使用了LAION數據集的不同變體，稱為LAION-400M，這是5B的較舊版本。該公司表示，後續的版本不再使用LAION數據集。史丹佛的報告指出，Imagen的開發人員發現400M包含「各種不當內容，包括色情圖像、種族歧視言論和有害的社會刻板印象」。

管理該數據集的非營利組織LAION告訴彭博社，他們對有害內容採取「零容忍」政策，並將暫時從網上移除這些數據集。Stability AI告訴該出版物，他們有反對濫用平台的指引。該公司表示，雖然他們使用LAION-5B來訓練模型，但他們僅關注數據集的一部分並對其進行了安全調整。

史丹佛的研究人員表示，CSAM的存在不一定會影響使用該數據集訓練的模型的輸出。然而，模型總是有可能從圖像中學到一些東西。

報告中提到：「CSAM的重複相同實例的存在也是有問題的，特別是由於它強化了特定受害者的圖像」。

研究人員承認，從使用該數據集訓練的AI模型中完全刪除問題內容將是困難的，尤其是對於Stable Diffusion 1.5等使用LAION-5B訓練的模型。他們建議應該停止使用這些模型，並盡可能停止分發。Google發布了新版本的Imagen，但並未公開該版本使用的數據集，只是聲明不再使用LAION。

美國各州檢察長呼籲國會成立委員會，調查AI對兒童剝削的影響，並禁止生成AI生成的CSAM。

按此即看更多：AI 人工智能新聞
按此即看更多：免費使用 ChatGPT-4 的 6 個方法
按此即看更多：5 個「香港」免費使用 ChatGPT-4 的方法

研究發現：AI 影像訓練數據集發現包含兒童性虐待圖像

推薦內容

關於我們