這款名為 MGIE 的模型是蘋果與加州大學聖塔芭芭拉分校合作開發的,它可以通過文本提示對圖像進行裁剪、調整大小、翻轉和添加濾鏡。
MGIE 代表多模態語言模型引導圖像編輯,可應用於簡單和複雜的圖像編輯任務,例如修改照片中的特定對象,使其呈現不同的形狀或更明亮。該模型結合了多種不同的語言模型使用方式。
首先,它學習如何解讀用戶的提示,然後「想像」出修改後的效果(例如,要求照片中的天空呈現更藍色,就會增加圖像中天空部分的亮度)。
在使用 MGIE 編輯照片時,用戶只需輸入他們想要改變的圖片內容。該論文舉了編輯一張意大利辣腸披薩的圖片的例子。輸入提示「使其更健康」將添加蔬菜配料。一張在撒哈拉沙漠中的老虎照片看起來很暗,但在告訴模型「增加對比度以模擬更多光線」的指示下,照片變得更亮。
研究人員在論文中表示:「MGIE 不僅提供簡短但含糊的指導,還能夠明確地解讀視覺意圖,從而實現合理的圖像編輯。我們從各個編輯方面進行了廣泛的研究,並證明了我們的 MGIE 在保持競爭效率的同時有效提升了性能。我們還相信 MLLM 引導的框架將對未來的視覺與語言研究做出貢獻。」蘋果已經通過 GitHub 提供了 MGIE 的下載,但還在 Hugging Face Spaces 上發布了一個網絡演示。該公司沒有透露這款模型在研究之外的計劃。
一些圖像生成平台,如 OpenAI 的 DALL-E 3,可以通過文本輸入對其創建的圖片進行簡單的照片編輯任務。作為圖像編輯的首選,Adobe(Photoshop 的創建者)也擁有自己的 AI 編輯模型。其 Firefly AI 模型可以生成填充,為照片添加生成的背景。
按此即看更多:AI 人工智能 新聞
按此即看更多:免費使用 ChatGPT-4 的 6 個方法
按此即看更多:5 個「香港」免費使用 ChatGPT-4 的方法