Google 最近將 DeepMind 和 Google Brain 合併成一個大型 AI 團隊,並且在週三,新的 Google DeepMind 分享了有關其視覺語言模型(VLM)之一如何用於為 YouTube Shorts 生成描述的詳細信息,這可以幫助發現性。
DeepMind 在帖子中寫道:“Shorts 只需幾分鐘即可創建,通常不包括描述和有用的標題,這使得它們更難通過搜索找到。” Flamingo 可以通過分析視頻的初始幀來製作這些描述,以解釋正在發生的事情(DeepMind 舉了“一隻狗在頭上平衡一堆餅乾”的例子)。這些文本描述將被存儲為元數據,以“更好地分類視頻並將搜索結果與觀眾查詢匹配”。
Google DeepMind 的首席商務官 Colin Murdoch 回應 The Verge 時指出,這解決了一個真正的問題:對於 Shorts,創作者有時不會添加元數據,因為創建視頻的過程比創建長格式視頻更加流暢。 Shorts 的產品管理總監 Todd Sherman 補充說,由於 Shorts 大多在人們只是滑動到下一個視頻的頁面上觀看,而不是積極瀏覽它們,因此沒有太多的動機添加元數據。
Sherman 表示:“這個 Flamingo 模型-理解這些視頻並為我們提供描述性文本-對於幫助我們已經在尋找這些元數據的系統來說真的非常有價值。” “它使它們能夠更有效地理解這些視頻,以便我們可以在用戶搜索時為用戶進行匹配。”
生成的描述不會面向用戶。 Sherman 說:“我們正在談論幕後的元數據。” “我們不向創作者展示它,但是我們正在投入大量精力確保其準確性。” 至於 Google 如何確保這些描述的準確性,“所有描述性文本都將與我們的責任標準保持一致,” Sherman 說。 “生成某些以不良方式呈現視頻的描述性文本是不太可能的。我們根本不預期這種結果。”
Flamingo 已經將自動生成的描述應用於新的 Shorts 上傳。Flamingo 已經將自動生成的描述應用於新的 Shorts 上傳,並且對包括最受歡迎的視頻在內的“大量現有視頻”進行了這樣的操作,DeepMind 發言人 Duncan Smith 表示。
在回應 Flamingo 是否會在未來應用於長格式 YouTube 視頻的問題時表示,“我認為它完全可以。” “不過,我認為需要的可能要少一點。”他指出,對於長格式視頻,創作者可能會花費幾個小時進行預製作,拍攝和編輯等工作,因此添加元數據是製作視頻過程的相對較小的部分。由於人們通常基於標題和縮略圖觀看長格式視頻,因此創作者製作這些視頻時有動機添加有助於發現性的元數據。