OpenAI 推出新一代語音轉錄與生成模型

OpenAI 在其 API 中引入了新的轉錄和語音生成 AI 模型，旨在改進其先前版本的功能。

這些新模型符合 OpenAI 更廣泛的「代理」願景，即構建能夠代表用戶獨立完成任務的自動化系統。OpenAI 產品負責人 Olivier Godement 表示，未來幾個月將看到更多這樣的代理出現，重點是幫助客戶和開發者利用這些實用、可用且準確的代理。

新的文本轉語音模型名為「gpt-4o-mini-tts」，它不僅能生成更細膩、更逼真的語音，而且更具「可控性」。開發者可以用自然語言指示該模型如何發音，例如要求它以「瘋狂科學家的口吻」或「像冥想老師一樣平和的聲音」說話。

OpenAI 的產品團隊成員 Jeff Harris 指出，目標是讓開發者能夠定制語音的「體驗」和「情境」。在不同的情境下，人們不希望聽到單調、無變化的聲音。例如，在客戶支持場景中，如果需要表達歉意，語音可以相應地帶有這種情緒。

至於新的語音轉文本模型「gpt-4o-transcribe」和「gpt-4o-mini-transcribe」，它們將取代公司長期使用的 Whisper 轉錄模型。OpenAI 聲稱，新模型在「多樣、高質量的音頻數據集」上進行了訓練，能夠更好地捕捉帶有口音和多樣化的語音，即使在嘈雜環境中也能表現出色。

Harris 補充說，新模型在減少「幻覺」方面也有所改進。Whisper 有時會編造詞語甚至整段對話，導致轉錄中出現不準確的內容。新模型在這方面有了顯著提升，確保準確捕捉實際聽到的詞語，不添加未聽到的細節。

然而，不同語言的轉錄效果可能存在差異。根據 OpenAI 的內部基準測試，更準確的轉錄模型「gpt-4o-transcribe」在印地語和德拉維達語系語言（如泰米爾語、泰盧固語、馬拉雅拉姆語和坎納達語）上的「詞錯率」接近 30%。

與以往不同，OpenAI 不打算公開發布其新的轉錄模型。該公司歷史上曾在新版本的 Whisper 發布時采用 MIT 許可證供商業使用。Harris 表示，新模型比 Whisper「大得多」，因此不適合公開發布。它們不像 Whisper 那樣可以在本地筆記本電腦上運行。OpenAI 希望在未來開源發布時更加謹慎，並針對特定需求進行優化。

【教學】免費使用 ChatGPT-4 的 6 個方法 /
【說明】4 個方法，讓你的 iPhone / Android 在香港無需 VPN 就能用 ChatGPT

OpenAI 推出新一代語音轉錄與生成模型

推薦內容

關於我們