Sesame 發布新 AI 模型 CSM-1B,語音助手技術再進一步

Sesame 是一家人工智能公司,最近推出了其引人注目的語音助手 Maya 的基礎 AI 模型,這一承諾終於落實。該模型的參數規模達到 10 億,這裡的「參數」指的是模型的組成部分,並且是根據 Apache 2.0 許可證發布的,這意味著它可以在商業上使用,限制很少。這個名為 CSM-1B 的模型能夠根據文本和音頻輸入生成「RVQ 音頻碼」,這是 Sesame 在 AI 開發平台 Hugging Face 上的描述。

RVQ 代表「殘差向量量化」,這是一種將音頻編碼為離散標記(稱為代碼)的技術。RVQ 被應用於多個近期的 AI 音頻技術中,包括 Google 的 SoundStream 和 Meta 的 Encodec。

模型架構與功能

CSM-1B 的背後使用了 Meta 的 Llama 系列模型,並搭配了一個音頻「解碼器」組件。Sesame 表示,Maya 的精細調整版本正是基於 CSM。Sesame 在 CSM-1B 的 Hugging Face 和 GitHub 倉庫中寫道:「這裡開源的模型是一個基礎生成模型,能夠產生多種聲音,但尚未針對任何特定聲音進行精細調整……該模型因訓練數據中的數據污染,對非英語語言有一定的能力,但表現可能不佳。」

目前尚不清楚 Sesame 用於訓練 CSM-1B 的數據來源,該公司並未透露具體信息。

使用與道德考量

該模型缺乏實際的安全保障,屬於「榮譽系統」的情況。Sesame 僅僅敦促開發者和用戶不要在未經同意的情況下模仿某人的聲音,或創建如假新聞等誤導性內容,亦不應從事「有害」或「惡意」的活動。

在 Hugging Face 上進行的演示中,克隆聲音的過程不到一分鐘。從那裡開始,生成語音變得十分容易,包括對於如選舉和俄羅斯宣傳等具爭議性的話題。

公司背景與未來計劃

Sesame 由 Oculus 共同創始人 Brendan Iribe 共同創辦,因其助手技術而在二月末迅速走紅,這項技術接近於突破「怪異谷」的領域。Maya 和 Sesame 的另一個助手 Miles 能夠呼吸並且語言流暢,還可以在講話時被打斷,這與 OpenAI 的語音模式相似。

Sesame 已從 Andreessen Horowitz、Spark Capital 和 Matrix Partners 獲得了一筆未公開的資金。除了建立語音助手技術外,該公司還表示正在原型開發一款「設計為全天佩戴」的 AI 眼鏡,將配備其自定義模型。

台灣電話卡推介 / 韓國電話卡推介
更多儲值卡評測請即睇:SIM Card 大全
https://www.techritual.com/category/sim-card-review/

Henderson
Henderson
Henderson 主要擔任「炒稿記者」的職責,以翻譯最新科技,手機 電動車等消息為每天的工作。