根據一份報告指出,許多公司部分依賴YouTube視頻轉錄數據來訓練其人工智能模型,Apple正在澄清其對 OpenELM 的使用以及未來計劃,該模型是基於有爭議的 Pile 數據訓練的。
在閱讀了報告後,Apple 聯繫了 TechRadar,報告詳細說明了提供 Pile 的公司 EleutherAI 顯然使用了 YouTube 字幕數據集,此舉違反了社交視頻平台的數據使用政策。
雖然 Apple 沒有直接回應 YouTube 數據的問題,但重申了對創作者和出版商權利的承諾,並補充說,它確實提供網站選擇退出其數據被用於訓練Apple Intelligence的能力,該技術在WWDC 2024上發布,預計將在iOS 18中推出。
該公司還確認其模型訓練,包括即將推出的 Apple Intelligence,使用高質量數據,包括來自出版商的授權數據、庫存圖片和一些來自網絡的公開數據。YouTube 的轉錄數據並非旨在作為公共資源,但尚不清楚是否完全隱藏。
僅供研究
Apple 也構建了研究模型,OpenELM 本質上是一個用於了解語言模型的工具。在一篇關於 OpenELM 的論文 (PDF)中,研究人員指出他們確實使用 Pile 數據進行了訓練。
然而,Apple 表示,OpenELM 僅用於研究目的,並未用於為任何 Apple 設備上的 AI 功能提供支持,包括最佳 iPhone、最佳 iPad和最佳 Mac。此外,Apple 表示沒有計劃構建該模型的未來版本。
儘管這可能會給那些數據被用於 Pile 並被包括 Apple 在內的其他模型使用的 YouTube 創作者(包括 TechRadar)帶來一些安慰,但這並未解決 EleutherAI 顯然在未經 YouTube 或創作者許可的情況下進行數據抓取並將其交給 Apple 等公司的事實。