Nvidia 推出「世界上最靈活的聲音機器」:使用 AI 融合音樂、聲音與語音

Nvidia 最近宣布了其新的 Fugatto 生成式 AI 音頻工具,並將其描述為「世界上最靈活的聲音機器」——能夠製作各種音樂、語音及其他音頻,甚至是從未聽過的獨特聲音。

Fugatto 的全名為 Foundational Generative Audio Transformer Opus 1,能夠處理文本提示和音頻樣本。用戶只需簡單描述想要聽到的內容,或讓 AI 模型修改或結合現有的音頻片段。例如,可以將火車的聲音轉變為華麗的管弦樂編曲,或將班卓琴旋律與雨聲混合。只需輸入提示,即可聽到薩克斯風吠叫或長笛喵喵的聲音。

Fugatto 還可以從音軌中隔離人聲,改變人聲的表達風格,並且可以從零開始生成語音。將現有的旋律輸入後,可以讓其以任何樂器演奏,並以任何風格呈現。不過,壞消息是——目前尚未推出。

那麼,如何嘗試這項令人印象深刻的新 AI 技術呢?目前無法使用:只能透過 Nvidia 的促銷視頻和樣本網站來了解。尚未有關於 Fugatto 何時會對公眾測試的消息。

Nvidia 發布的一些樣本包括女性聲音吠叫的聲音、工廠機器尖叫的聲音、打字機低語的聲音,以及大提琴憤怒吼叫的聲音。可以看到各種可能的音頻效果。

Nvidia 還展示了 AI 引擎如何生成口語片段,這些片段可以以不同的情感(從憤怒到快樂)以及不同的口音進行傳遞。Nvidia 的 Rafael Valle 表示:「我們想創建一個能理解和生成聲音的模型,就像人類一樣。Fugatto 是我們邁向未來的一步,未來在音頻合成和轉換中,無監督的多任務學習將從數據和模型規模中產生。」

十斗
十斗https://www.techritual.com/author/tenten/
十斗在知名大學取得了計算機科學與工程學位,並在學術研究方面表現出色。她的研究領域包括人工智能、機器學習和數據科學。一斗為十升,一升為十合,一合為十分之一升。謝靈運言天下才學一石,曹植占八斗,以此讚譽。後用以比喻才學極高。