OpenAI新音訊模型實測：定製化語音驚豔，中文表現待加強

更新于：2025-03-26 02:47:31

近日，OpenAI在其API平臺上隆重推出了三款全新的音訊處理模型，分別為兩款語音轉文字模型——gpt-4o-transcribe與gpt-4o-mini-transcribe，以及一款文字轉語音模型gpt-4o-mini-tts。據OpenAI官方介紹，這些模型在識別準確率、語言理解力及適應性方面實現了顯著提升，尤其在面對口音差異、嘈雜環境及語速變化等複雜場景時，表現尤為出色。

gpt-4o-mini-tts模型賦予了開發者前所未有的定製化能力，用戶可指令模型以特定風格進行語音輸出，如模仿富有同情心的客服、機器人腔調或是瘋狂科學家的語調，這一功能無疑將極大豐富智慧語音交互的多樣性和真實感。

為了直觀展示這些新模型的能力，OpenAI還特意搭建了一個專屬網站，使用者無需複雜操作即可免費體驗文字轉語音功能，而語音轉文字功能則需通過API介面訪問。

經過親身體驗，新模型的文字轉語音功能確實令人眼前一亮。它不僅能夠流暢且富有感情地朗讀英文文本，還能在義大利語中演繹餐廳功能表，甚至在粵語中類比推銷電話，不過，在中文語境下，該模型的表現仍有待提升，語音效果相對生硬，缺乏自然流暢感。

在價格方面，OpenAI為使用者提供了相對親民的選擇：gpt-4o-transcribe每分鐘收費0.006美元（約人民幣0.04元），gpt-4o-mini-transcribe則為每分鐘0.003美元（約人民幣0.02元），而gpt-4o-mini-tts的定價為每分鐘0.015美元（約人民幣0.11元）。

在OpenAI提供的體驗平臺上，用戶可以從11種預設聲音中進行選擇，儘管這些聲音的名稱不夠直觀，但通過試聽可以感受到它們各自的特點。在選擇聲音后，使用者還可以進一步指定風格或人設，如冷靜、耐心老師、友好或美食主廚等，這為語音內容的個人化定製提供了無限可能。

以“美食主廚”為例，當選擇這一人設並輸入相關文本后，模型迅速生成了一段充滿義大利風情的語音，不僅準確報出了功能表，還自然融入了義大利口音的英文講解，細節處理得相當到位。模型還能根據定製化的提示詞，模仿特定歷史時期的說話方式，如“中世紀騎士”，這一功能的實現離不開詳盡的提示詞指引。

然而，當嘗試中文場景時，模型的表現則略顯不足。儘管生成速度理想，但中文語音缺乏起伏與變化，聲音較為生硬，缺乏親和力。在方言測試方面，模型僅成功識別並輸出了粵語內容，其他方言如閩南語、山東話等則未能達到預期效果。

在語音轉文字方面，OpenAI此次推出的gpt-4o-transcribe和gpt-4o-mini-transcribe兩款模型在多個基準測試中均超越了上一代模型whisper。它們在高資源語言上的表現尤為出色，如英語、西班牙文等，但在中文上的表現相對較弱。在低資源語言上，這兩款模型也實現了顯著改進，如孟加拉語的錯誤率大幅下降。