大模型迎來新競爭,拼的居然是搜索能力
更新于:2025-03-26 04:44:12

曾經,參數規模被視為衡量大模型能力的關鍵指標,然而如今,搜索能力卻成為了新的競爭核心。本文將深入探討這一現象背後的原因,分析從“拼參數”到“拼搜索”的轉變如何成為AI行業發展的必然趨勢,供大家參考。

當前AI大模型競爭已悄然進入新階段——當騰訊元寶、百度等廠商宣稱部署滿血版DeepSeek大模型時,也許你會發現,問同一個問題,每個大模型給的結果截然不同。

是什麼決定了它們能力的不同呢?

我的發現是搜索的能力,這看似是技術的倒退,實則是AI進化的必經之路。我們來一起探究一下。

從“造神”到“找書”:大模型競爭的本質遷移

三年前,科技圈為GPT-3的1750億參數沸騰,彷彿參數規模是通往“通用智慧”的聖杯。

當百度、騰訊、阿里紛紛宣稱部署“DeepSeek滿血版大模型”時,一個殘酷真相浮現:同樣的“大腦”配上不同的“圖書館”,輸出的知識天差地別。

  1. 騰訊元寶的“社交化知識”:其搜尋結果嚴重傾斜微信公眾號內容。
  2. 百度的“權威數據池”:依託自有生態的百科、文庫、學術資源。
  3. Monica的“全球化雜烩”:由於抓取Reddit、Twitter等開放社區。

騰訊元寶

Monica

DeepSeek

這印證了一個事實:AI的“思考”本質是對搜索數據的拼接藝術。參數堆砌如同給廚子塞更多麵粉,而搜索品質才是決定菜餚水準的食材。

為什麼是搜索?行業轉型的三大推手

這場從“拼參數”到“拼搜索”的集體轉向,背後是技術、商業與數據的三角博弈:

第一,算力紅利的終結

當大模型參數突破萬億級,邊際效益急劇下降。OpenAI內部實驗顯示,GPT-4 Turbo將參數壓縮40%但優化檢索策略后,法律諮詢準確率反升15%。

中國企業更早感受到這一變化:百度的文心大模型通過接入國家專利資料庫,在技術創新類問答中擊敗了參數更大的通用模型。

算力競賽的終局,是巨頭們發現優化搜索的效率遠超暴力堆料。

第二,數據源的“權力遊戲”

高品質訓練數據瀕臨枯竭(5年內甚至更快),企業開始爭奪“數據主權”:

  1. 騰訊投資知乎、收購閱文集團,將社交與文學內容變為AI的“特供知識庫”;
  2. 百度把貼吧20年討論數據煉成知識圖譜,構建起搜尋引擎之外的“第二數據護城河”;
  3. 阿裡通過電商平臺的商品描述與用戶評論,訓練出能精準推薦穿搭的AI導購。

這些動作的本質,是將搜索數據源從“公共資源”變為“私有領地”——就像中世紀領主圈佔土地,數據疆界正在重塑AI勢力範圍。

第三,精準搜索的商業溢價

在醫療、法律等專業領域,通用大模型的“幻覺”問題尤為致命。而定向搜索高信源數據成為破局關鍵:

  1. 騰訊元寶接入微信公眾號中三甲醫院賬號的內容,使糖尿病飲食建議的準確率提升34%;
  2. 百度文心調用裁判文書網公開判例,讓法律諮詢的條款匹配度達到91%;
  3. 甚至小眾的科研AI工具,通過專攻arXiv論文庫檢索,在文獻綜述生成上超越了ChatGPT。

這讓企業意識到:垂直場景的競爭力=搜索精度×領域數據濃度。

最後的話

現在的大模型比賽換玩法了:以前比誰家腦子大(參數多),現在比誰更會查資料。搜索技術就像漏鬥——篩出好數據,AI才能給出靠譜答案。

騰訊元寶總愛翻微信公眾號,百度只信自家百科文庫,這就好比兩個學生:一個寫作業全靠網紅筆記,另一個只啃教科書,答案當然不一樣。

未來拼的不是造更大的AI,而是看誰能建更聰明的“資料庫管理員”——既得知道去哪找權威資訊,還要會挑重點。說到底,AI變聰明的新秘訣就一條:餵它乾淨的好數據,比硬塞海量垃圾資訊管用十倍。

希望帶給你一些啟發,加油!

作者:柳星聊產品,公眾號:柳星聊產品

本文由 @柳星聊產品 原創發佈於人人都是產品經理。未經許可,禁止轉載。

題圖來自 Unsplash,基於 CC0 協定