Sesame 發布新 AI 模型 CSM-1B，語音助手技術再進一步

Sesame 是一家人工智能公司，最近推出了其引人注目的語音助手 Maya 的基礎 AI 模型，這一承諾終於落實。該模型的參數規模達到 10 億，這裡的「參數」指的是模型的組成部分，並且是根據 Apache 2.0 許可證發布的，這意味著它可以在商業上使用，限制很少。這個名為 CSM-1B 的模型能夠根據文本和音頻輸入生成「RVQ 音頻碼」，這是 Sesame 在 AI 開發平台 Hugging Face 上的描述。

RVQ 代表「殘差向量量化」，這是一種將音頻編碼為離散標記（稱為代碼）的技術。RVQ 被應用於多個近期的 AI 音頻技術中，包括 Google 的 SoundStream 和 Meta 的 Encodec。

模型架構與功能

CSM-1B 的背後使用了 Meta 的 Llama 系列模型，並搭配了一個音頻「解碼器」組件。Sesame 表示，Maya 的精細調整版本正是基於 CSM。Sesame 在 CSM-1B 的 Hugging Face 和 GitHub 倉庫中寫道：「這裡開源的模型是一個基礎生成模型，能夠產生多種聲音，但尚未針對任何特定聲音進行精細調整……該模型因訓練數據中的數據污染，對非英語語言有一定的能力，但表現可能不佳。」

目前尚不清楚 Sesame 用於訓練 CSM-1B 的數據來源，該公司並未透露具體信息。

使用與道德考量

該模型缺乏實際的安全保障，屬於「榮譽系統」的情況。Sesame 僅僅敦促開發者和用戶不要在未經同意的情況下模仿某人的聲音，或創建如假新聞等誤導性內容，亦不應從事「有害」或「惡意」的活動。

在 Hugging Face 上進行的演示中，克隆聲音的過程不到一分鐘。從那裡開始，生成語音變得十分容易，包括對於如選舉和俄羅斯宣傳等具爭議性的話題。

公司背景與未來計劃

Sesame 由 Oculus 共同創始人 Brendan Iribe 共同創辦，因其助手技術而在二月末迅速走紅，這項技術接近於突破「怪異谷」的領域。Maya 和 Sesame 的另一個助手 Miles 能夠呼吸並且語言流暢，還可以在講話時被打斷，這與 OpenAI 的語音模式相似。

Sesame 已從 Andreessen Horowitz、Spark Capital 和 Matrix Partners 獲得了一筆未公開的資金。除了建立語音助手技術外，該公司還表示正在原型開發一款「設計為全天佩戴」的 AI 眼鏡，將配備其自定義模型。

台灣電話卡推介 / 韓國電話卡推介
更多儲值卡評測請即睇：SIM Card 大全
https://www.techritual.com/category/sim-card-review/

Sesame 發布新 AI 模型 CSM-1B，語音助手技術再進一步

模型架構與功能

使用與道德考量

公司背景與未來計劃

推薦內容

關於我們