NVIDIA 的 Text-To-Video 讓 GIF 更強了

現在，ChatGPT 和 Midjourney 幾乎已成為主流，下一個重要的 AI 競賽是文本到視頻生成器，Nvidia 展示了一些令人印象深刻的技術演示，這些技術很快就能將您的 GIF 提升到一個新的水平。

Nvidia 的多倫多 AI 實驗室發布了一篇名為「使用潛在擴散模型進行高分辨率視頻合成」的新研究論文和微型網站，展示了即將加入最佳 AI 藝術生成器不斷增長的清單中的令人難以置信的視頻創作工具。

潛在擴散模型（LDM）是一種可以生成視頻而不需要大量計算能力的 AI。Nvidia 表示，其技術是通過構建文本到圖像生成器的工作（在這種情況下是穩定擴散）並在潛在空間擴散模型中添加「時間維度」來實現的。

換句話說，其生成式 AI 可以使靜止圖像以逼真的方式移動並使用超分辨率技術升級它們。這意味著它可以製作長度為 4.7 秒的短視頻，分辨率為 1280×2048，或者在較低的分辨率 512×1024 下製作更長的視頻，例如駕駛視頻。

當我們看到早期的演示（如上圖和下圖）時，我們立刻想到這將如何提高我們的 GIF 遊戲。好吧，還有更大的影響，例如視頻創作的民主化和自動電影改編的前景，但在這個階段，文本到 GIF 似乎是最令人興奮的用例。

像「一個風暴突擊隊員在海灘上吸塵」和「一個玩電吉他的泰迪熊，高清，4K」這樣的簡單提示產生了一些相當可用的結果，即使其中一些創作自然會出現一些瑕疵和變形。現在，這使得像 Nvidia 的新演示這樣的文本到視頻技術最適合用於縮略圖和 GIF。但是，鑑於 Nvidia 在更長場景的 AI 生成中看到的快速改進，我們可能不必等待庫存庫和其他地方的更長的文本到視頻片段。

Nvidia 不是第一家展示 AI 文本到視頻生成器的公司。最近，我們看到 Google Phenaki 首次亮相，展示了基於較長提示的 20 秒片段的潛力。它的演示還展示了一個雖然更粗糙但超過兩分鐘的片段。幫助創建文本到圖像生成器穩定擴散的初創公司 Runway，也在上個月揭示了其 Gen-2 AI 視頻模型。

除了回應像「紐約市閣樓的傍晚陽光透過窗戶」的提示（其結果如上圖所示）之外，它還允許您提供靜止圖像作為生成的視頻基礎，並讓您請求應用於其視頻的樣式。後者也是 Adobe Firefly 最近演示的主題，它展示了 AI 將使視頻編輯變得更加容易的程度。

在像 Adobe Premiere Rush 這樣的程序中，您很快就可以輸入您想在視頻中看到的時間或季節，而 Adobe 的 AI 將完成其餘部分。

Nvidia、Google 和 Runway 最近的演示表明，完全的文本到視頻生成處於一種稍微模糊的狀態，通常會創建出奇怪，夢幻或扭曲的結果。但是，就目前而言，這對我們的 GIF 遊戲來說已經足夠了，而使技術適用於更長的視頻的快速改進無疑就在不久的將來。

NVIDIA 的 Text-To-Video 讓 GIF 更強了

推薦內容

關於我們