OpenAI 在其 API 中引入了新的轉錄和語音生成 AI 模型,旨在改進其先前版本的功能。
這些新模型符合 OpenAI 更廣泛的「代理」願景,即構建能夠代表用戶獨立完成任務的自動化系統。OpenAI 產品負責人 Olivier Godement 表示,未來幾個月將看到更多這樣的代理出現,重點是幫助客戶和開發者利用這些實用、可用且準確的代理。
新的文本轉語音模型名為「gpt-4o-mini-tts」,它不僅能生成更細膩、更逼真的語音,而且更具「可控性」。開發者可以用自然語言指示該模型如何發音,例如要求它以「瘋狂科學家的口吻」或「像冥想老師一樣平和的聲音」說話。
OpenAI 的產品團隊成員 Jeff Harris 指出,目標是讓開發者能夠定制語音的「體驗」和「情境」。在不同的情境下,人們不希望聽到單調、無變化的聲音。例如,在客戶支持場景中,如果需要表達歉意,語音可以相應地帶有這種情緒。
至於新的語音轉文本模型「gpt-4o-transcribe」和「gpt-4o-mini-transcribe」,它們將取代公司長期使用的 Whisper 轉錄模型。OpenAI 聲稱,新模型在「多樣、高質量的音頻數據集」上進行了訓練,能夠更好地捕捉帶有口音和多樣化的語音,即使在嘈雜環境中也能表現出色。
Harris 補充說,新模型在減少「幻覺」方面也有所改進。Whisper 有時會編造詞語甚至整段對話,導致轉錄中出現不準確的內容。新模型在這方面有了顯著提升,確保準確捕捉實際聽到的詞語,不添加未聽到的細節。
然而,不同語言的轉錄效果可能存在差異。根據 OpenAI 的內部基準測試,更準確的轉錄模型「gpt-4o-transcribe」在印地語和德拉維達語系語言(如泰米爾語、泰盧固語、馬拉雅拉姆語和坎納達語)上的「詞錯率」接近 30%。
與以往不同,OpenAI 不打算公開發布其新的轉錄模型。該公司歷史上曾在新版本的 Whisper 發布時采用 MIT 許可證供商業使用。Harris 表示,新模型比 Whisper「大得多」,因此不適合公開發布。它們不像 Whisper 那樣可以在本地筆記本電腦上運行。OpenAI 希望在未來開源發布時更加謹慎,並針對特定需求進行優化。
【教學】免費使用 ChatGPT-4 的 6 個方法 /
【說明】4 個方法,讓你的 iPhone / Android 在香港無需 VPN 就能用 ChatGPT