百度端到端語音語言大模型發佈，成本宣稱最高降 90%

端到端模型語音模型語言模型 IT之家文心百度一言端到建模语音识别百度世界王海峰知识图谱模型朱勇百度大脑人工智能专利

更新于：2025-03-31 17:13:03

IT之家 3 月 31 日消息，在今日的百度 AI DAY 上，百度發佈首個基於全新互相關注意力（Cross-Attention）的端到端語音語言大模型，宣佈實現超低時延與超低成本，在電話語音頻道的語音問答場景中，調用成本較行業均值下降約 50%-90%。

日，文小言宣佈品牌煥新，率先接入該模型，還帶來多模型融合調度、圖片問答等功能升級。接入該模型后，文小言不僅能支援更擬真的語聊效果，而且支持重慶、廣西、河南、廣東、山東等特色方言。據介紹，語音大模型具備極低的訓練和使用成本，極快的推理回應速度，語音交互時，可將使用者等待時長從行業常見的 3-5 秒降低至 1 秒左右。

更新後的文小言還支援“多模型融合調度”，整合了百度自研的文心 X1、文心 4.5 等模型，並接入 DeepSeek-R1 等第三方優質模型，實現了多模型間的智能協同。用戶可以選擇“自動模式”，一鍵調用最優模型組合，也可根據需求選擇單一模型完成特定任務，提升回應速度與任務處理能力。

IT之家從活動中獲悉，文小言還加強了圖片問答功能，用戶拍攝或上傳圖片，以文字或語音提問即可直接獲取深度解析。例如，拍攝一道數學題可即時生成解題思路與視頻解析；上傳多款商品圖可對比參數、價格，輔助購物決策。

此外，文小言新增“圖個冷知識”功能，用戶可預設“歷史學者”“科技達人”等人設視角，為同一圖片賦予多維解讀。例如，當用戶詢問“貓窗探秘，為何貓愛窗邊的科學真相？”，文小言能從狩獵本能、能量獲取、領地意識等角度給出獨特解讀。

百度語音首席架構師賈磊透露，該模型是百度在業界首個推出、基於全新互相關注意力 (Cross-Attention) 的端到端語音語言大模型。“在語音場景滿足一定交互指標下，大模型調用成本比行業平均降低 50%-90%，推理回應速度極快，將語音交互等待時間壓縮至 1 秒左右，極大提升了交互流暢性。同時，在大模型加持下，實現了流式逐字的 LLM 驅動的多情感語音合成，情感飽滿、逼真、擬人，交互聽感也得到極大提升。”