近日,OpenAI在其API平臺上隆重推出了三款全新的音訊處理模型,分別為兩款語音轉文字模型——gpt-4o-transcribe與gpt-4o-mini-transcribe,以及一款文字轉語音模型gpt-4o-mini-tts。據OpenAI官方介紹,這些模型在識別準確率、語言理解力及適應性方面實現了顯著提升,尤其在面對口音差異、嘈雜環境及語速變化等複雜場景時,表現尤為出色。
gpt-4o-mini-tts模型賦予了開發者前所未有的定製化能力,用戶可指令模型以特定風格進行語音輸出,如模仿富有同情心的客服、機器人腔調或是瘋狂科學家的語調,這一功能無疑將極大豐富智慧語音交互的多樣性和真實感。
為了直觀展示這些新模型的能力,OpenAI還特意搭建了一個專屬網站,使用者無需複雜操作即可免費體驗文字轉語音功能,而語音轉文字功能則需通過API介面訪問。
經過親身體驗,新模型的文字轉語音功能確實令人眼前一亮。它不僅能夠流暢且富有感情地朗讀英文文本,還能在義大利語中演繹餐廳功能表,甚至在粵語中類比推銷電話,不過,在中文語境下,該模型的表現仍有待提升,語音效果相對生硬,缺乏自然流暢感。
在價格方面,OpenAI為使用者提供了相對親民的選擇:gpt-4o-transcribe每分鐘收費0.006美元(約人民幣0.04元),gpt-4o-mini-transcribe則為每分鐘0.003美元(約人民幣0.02元),而gpt-4o-mini-tts的定價為每分鐘0.015美元(約人民幣0.11元)。
在OpenAI提供的體驗平臺上,用戶可以從11種預設聲音中進行選擇,儘管這些聲音的名稱不夠直觀,但通過試聽可以感受到它們各自的特點。在選擇聲音后,使用者還可以進一步指定風格或人設,如冷靜、耐心老師、友好或美食主廚等,這為語音內容的個人化定製提供了無限可能。
以“美食主廚”為例,當選擇這一人設並輸入相關文本后,模型迅速生成了一段充滿義大利風情的語音,不僅準確報出了功能表,還自然融入了義大利口音的英文講解,細節處理得相當到位。模型還能根據定製化的提示詞,模仿特定歷史時期的說話方式,如“中世紀騎士”,這一功能的實現離不開詳盡的提示詞指引。
然而,當嘗試中文場景時,模型的表現則略顯不足。儘管生成速度理想,但中文語音缺乏起伏與變化,聲音較為生硬,缺乏親和力。在方言測試方面,模型僅成功識別並輸出了粵語內容,其他方言如閩南語、山東話等則未能達到預期效果。
在語音轉文字方面,OpenAI此次推出的gpt-4o-transcribe和gpt-4o-mini-transcribe兩款模型在多個基準測試中均超越了上一代模型whisper。它們在高資源語言上的表現尤為出色,如英語、西班牙文等,但在中文上的表現相對較弱。在低資源語言上,這兩款模型也實現了顯著改進,如孟加拉語的錯誤率大幅下降。
OpenAI表示,這些新模型在音訊生成和轉錄技術上的進步,得益於其強大的GPT架構及在專門音訊數據集上的大規模預訓練。他們還採用了改進的模型蒸餾技術和自博弈技術,使得小型模型也能提供出色的對話質量和回應速度。未來,OpenAI將繼續致力於提升音訊模型的智慧性和準確性,為開發者提供更加個人化的體驗。