Meta 新推出的 Spirit LM 開源模型能夠模仿人類表達情感

多模態技術在人工智能聊天機器人中無疑是當前的一大熱點,而在 GitHub 上出現的相關模型數量已經難以計數。Meta AI 採取開源的方式,推出了新的 Spirit LM 模型,旨在解決一些多模態挑戰。從目前的情況來看,該模型相當令人印象深刻。

目前,ChatGPT 的高級語音模式已經能夠提供相當表達豐富的類人回應。許多人可能已經看過那些 ChatGPT 與人類互動的病毒視頻,表現得甚至比某些人更為出色。雖然目前的表現尚未達到預期,但總體而言,Spirit LM 的表現優於當前的 Gemini Live。Meta 靜靜觀察了一段時間,Spirit LM 的推出旨在提升語音的自然度。

根據 Meta 的說法,Spirit LM 基於一個“7B 預訓練文本語言模型”。Meta 在其 X 帖子中指出,目前大多數存在的多模態人工智能模型使用自動語音識別(ASR)來識別語音輸入並將其轉換為文本。然而,Meta 指出,這樣的過程會導致人工智能失去大量表達。因此,Meta 表示:

使用語音音素、音調和音調標記,Spirit LM 模型能夠克服這些限制,為輸入和輸出生成更自然的語音,同時學習 ASR、TTS 和語音分類等新任務。

Spirit LM 的官方發布頁面詳細介紹了該模型的研究過程(PDF 警告),頁面底部還提供了一些生成樣本,讓人對其能力有初步了解。

根據目前的情況,Spirit LM 確實在使用音調和音高標記方面做得相當出色,成功實現了聲音的調變。然而,這與 Google 的 Notebook LM 的 AI 主持的表現非常相似。

Meta 的 Spirit LM 現已向開發者和研究人員開放,供其試用和進一步開發。已經提交了訪問請求,希望能夠儘快試用該工具。屆時,將有機會在 WhatsApp、Instagram 和 Facebook 等平台上輕鬆訪問並進行有趣而富有洞察力的對話,這一點令人期待,尤其是考慮到 Meta 在 Connect 2024 中的演示。

同時,不可否認的是,未來的人工智能模型將比 Jarvis 更具表達能力,將圍繞著人類,幫助處理日常事務。這一前景既令人興奮又有些可怕。

對於 Meta 的新 Spirit LM,意見如何?歡迎在下方留言分享看法。

 

B4travel 5G 日本電話卡 9日 10GB 無限上網 / B4travel 5G 台灣電話卡 8日 20GB 無限上網

日本電話卡推介 / 台灣電話卡推介
更多儲值卡評測請即睇:SIM Card 大全
https://www.techritual.com/category/sim-card-review/

Henderson
Henderson
Henderson 主要擔任「炒稿記者」的職責,以翻譯最新科技,手機 電動車等消息為每天的工作。