通俗易懂講AI:5分鐘搞懂小模型/大模型/多模態特點!使用效果翻倍!
更新于:2025-04-10 03:25:59

隨著人工智慧技術的飛速發展,小模型、大模型、推理模型和多模態大模型等概念層出不窮,讓人眼花繚亂。本文將用通俗易懂的語言,説明大家在5分鐘內快速理解這些模型的特點、區別以及它們在不同場景中的應用。

現在很火的大模型到底是哪裡來的,看下面這個圖,熟悉生物學的應該一眼看出,這個是神經突觸傳遞示意圖。沒錯,現在的AI大模型的技術來源就是受人腦啟發演變而來的,儘管我們對真實的人腦運作認知有限。

AI領域的模型大小都是以自身的參數量為衡量的,根據行業經驗,大模型的參數量是10億起步,因為衡量大模型參數的單位就是billion。

步入正文前疊個甲,下面這個圖片都不陌生,但你知道這2個按鈕該怎麼使用嗎?什麼時候開?什麼時候關?後面給出答案。

小模型

顧名思義就是模型參數較小的模型,特點如下:

  • 參數量較小,在AI領域,參數量在1億(0.1B)以下的模型通常被稱為小模型。
  • 計算需求較低,可以在資源有限的設備上運行,如手機、嵌入式系統等。
  • 訓練數據需求相對較少。
  • 專注於特定任務,例如圖像分類、目標檢測、語音辨識等。

使用場景:

  • 行動裝置上的即時應用,如相機應用中的人臉識別,物體檢測(方形框)。
  • 物聯網(IoT)設備上的邊緣計算,如智慧感測器。

神經網路模型示意圖如下:

模型結構分為輸入層、隱藏層、輸出層。區分是大模型還是小模型就是中間隱藏層參數的層數和每一層參數量之和。比如下面這定義為小模型。

與之相對,當我們把隱藏層的層數和每一層參數量不斷擴大后,達到一定程度,就變為大模型,也就是我們現在熟知的大語言模型。如下圖:

大語言模型 (Large Language Models, LLMs)

特點如下:

  • 參數量巨大,通常在數百億到數千億之間。
  • 在海量文本數據上進行訓練,能夠生成高品質的自然語言文本。
  • 具有較強的通用性,可以完成多種自然語言處理任務,如文本生成、翻譯、問答、摘要等。
  • 智慧湧現,當模型學習一定程度后,慢慢的會舉一反三,給他一個沒有見過的語言問題,也能嘗試解答。

使用場景:

  • 聊天機器人: 提供對話式交互,例如客服機器人、虛擬助手。
  • 文本生成: 創作各種類型的文字,例如文章、詩歌、劇本。
  • 機器翻譯: 將文本從一種語言翻譯成另一種語言等等。幾乎所有語言處理的任務都可以使用大語言模型和小模型不一樣的是,大模型的受眾更廣,想用的好使用也會有一定門檻

使用技巧:

  • 提示工程 (Prompt Engineering): 設計有效的提示語,引導模型生成所需的輸出。
  • 清晰明確的指令: 準確描述所需的任務和輸出格式。
  • 提供上下文: 提供足夠的背景資訊,説明模型理解任務。
  • 少樣本學習 (Few-shot Learning): 在提示中提供少量示例,説明模型學習新的任務。
  • 微調 (Fine-tuning): 在特定領域的數據上進一步訓練模型,提高其在該領域的性能。
  • 檢索增強生成 (Retrieval Augmented Generation, RAG): 結合外部知識庫,提高生成文本的準確性和相關性。

這個裡面的各個概念我們會單獨出一篇文章,詳細介紹給大家。上面這麼多概念技巧表明,想讓大語言模型發揮效果,其實是要藉助各種工具的,模型自身就有很大局限。所以想用好,還是要好好學習一番,想學習AI的,可以評論區留言,告訴我你想解決什麼問題

推理大模型

有了大語言模型,為什麼還要推理大模型?

推理大模型誕生的背景,當然是語言大模型的局限性

語言大模型(如GPT系列)雖然在文本生成、對話等任務上表現出色,但其核心能力仍局限於“直進直出”概率驅動的文本預測,這導致以下問題:

  • 複雜任務表現不足:在數學證明、科學問題求解等需要多步分解的任務中,傳統語言模型易出現邏輯斷裂或“幻覺”。
  • 缺乏反思能力:模型無法像人類一樣通過“慢思考”驗證中間步驟,導致錯誤累積

推理大模型怎麼工作的?

  • 思維鏈技術:核心是“分步思考”。通俗說就是大的問題分佈拆解若干步驟,然後求解。但是和人的真正思考不是一回事,畢竟現在人的智能還沒有被解析。
  • 強化學習訓練:通過“試錯”學習,像教小孩做題:做對了獎勵,錯了就調整。這讓模型自己學會最優推理路徑(如OpenAI的o1系列)

推理模型真的會推理嗎?

  • 答案很微妙:它會類比人類推理的“表面行為”,但不會像人類一樣“理解邏輯”。
  • 像推理的“演員”:模型通過海量數據學習解題步驟的規律(比如先設變數、再列方程),但不懂背後的數學原理。
  • 作弊式推理:它像考試時偷偷帶小抄,把“看到問題→匹配套路→輸出答案”變成肌肉記憶。
  • 人類開掛法:為了讓模型更像“真會推理”,工程師還會用數學題答案當參考答案逼它練習(強化學習),或者讓它調用計算機算數(工具增強)。

總結一下:推理模型不會真的推理,只是在模仿人思考的範本,就是學套路學得好。不信可以看下面這個例子:

解答模式真的沒問題,但是不是哪裡不太對?看下面

首先有翅膀不意味著會飛,比如雞就有翅膀

湯姆貓顯然是一個動畫角色,模型此時就不知道“變通”啦

總結:沒有常識,只會按照固定的模版執行

如果我們這樣問:“湯姆貓是什麼劇中的那個角色?”

結合上面2個事例,可以知道其實模型是有這方面的記憶,但是它不知道“聯想和思考”

deepseek介面為例,介紹不同按鈕的功能和作用

大家用了這麼長時間的大模型,是否明白上面2個按鈕打開或關閉分別起什麼作用嘛?

  • 聯網和深度思考都開:推理模型R1回答問題時會結合搜索到的互聯網內容進行解答
  • 聯網和深度思考都關閉:那就是deepseek的V3模型自己在進行問題解答
  • 聯網開和深度思考關閉:V3模型回答問題時會結合搜索到的互聯網內容進行解答
  • 聯網關閉和深度思考開:那就是deepseek的推理模型R1自己在進行問題解答

那麼,在使用中,“深度思考”和“聯網搜索”按鈕打開或關閉的分別適用場景和作用是什麼?

深度思考(DeepSeek-R1模式)

  • 作用:調用深度推理模型,專注於複雜邏輯分析、多步驟推演和長文本處理(如數學建模、代碼調試、學術論文解析)。
  • 優勢:回答準確性高,支援256k超長上下文記憶,適合專業領域問題
  • 劣勢:回應速度較慢,無法即時獲取外部資訊,個別時候推理會帶來“致幻”

聯網搜索(即時檢索模式)

  • 作用:接入互聯網實時數據(如新聞、政策、學術論文)和平臺生態內容(公眾號、視頻號),解決時效性問題。
  • 優勢:資訊更新快(如股票行情、賽事比分),整合多源數據(3000+信源)增強答案權威性。
  • 劣勢:可能引入雜訊干擾,回應速度略慢

何時開啟?

何時關閉?

大語言模型一般只能處理文本資訊,如果想結合圖文音視頻資訊解決問題,就需要多模態大模型

多模態大模型

特點:

  • 能夠處理多種類型的輸入數據,例如文本、圖像、音訊、視頻等。
  • 通過跨模態學習,理解不同模態數據之間的關係。
  • 能夠生成多種模態的輸出,例如根據文字生成圖像,或者根據圖像生成描述。

使用場景:

  • 跨模態檢索: 根據一種模態的數據檢索另一種模態的數據,例如根據文本描述搜索圖像。
  • 視覺問答 (Visual Question Answering, VQA): 回答與圖像內容相關的問題。
  • 圖像描述生成 (Image Captioning): 生成描述圖像內容的自然語言文本。
  • 多模態對話: 進行涉及多種模態信息的對話,例如“這張圖片中的人正在做什麼?” (需要理解圖像內容)。
  • 具身智慧 (Embodied Intelligence): 幫助智慧體理解周圍環境並與之交互。

現有模型能力,輸入可以是文本、圖像、音訊、視頻等。但是輸出還是局限在文字和圖片(圖片能力進化中)。隨著模型能力和邊界的擴展,未來模型可實現下圖構思。

總結

不是功能越豐富就越好,要根據問題的特點選擇合適的模型和輔助工具。不是每個問題都需要使用推理模型,因為模型在推理的過程中會出現推理錯誤,從而導致“致幻”回復。

作者:帥森森,公眾號:帥森森聊AI和職場

本文由 @帥森森 原創發佈於人人都是產品經理。未經作者許可,禁止轉載

題圖來自Unsplash,基於CC0協定

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供資訊存儲空間服務