AI大模型技術解析-大模型背後的秘密

更新于：2025-03-25 23:11:32

隨著AI技術的飛速發展，大模型如ChatGPT等已成為人工智慧領域的熱門話題。然而，這些看似“靈性”的創造行為背後，實則隱藏著精密的機械邏輯和技術架構。本文將深入解析AI大模型背後的秘密，從Chat的含義、LLM（大型語言模型）的定義、Token的計算方式、蒸餾模型的作用，供大家參考學習。

當AI開口說話時，機器在思考什麼？

淩晨三點的伺服器機房，數以萬計的顯卡矩陣在黑暗中閃爍著幽藍微光，神經網路中奔湧著每秒數萬億次的矩陣運算。當ChatGPT為你寫出一首精巧的俳句，當Comfy UI的工作流生成令人驚歎的數字藝術，這些看似充滿”靈性”的創造行為背後，實則運行著一套精密如鍾錶般的機械邏輯。

當你仔細研究一下會發現，大模型並不是常人所想像的那麼簡單。

例如我們在用「Deepseek」充值API的時候會發現明確標註著“每百萬token輸入xx元“又或者說本地部署時候總能提到的「滿血版」「32B」等。這些到底是什麼東西呢？

接下來就讓我這個自詡站在大模型前沿的作者帶你揭開大模型的神秘面紗，帶你揭秘大模型背後的秘密。

Chat的含義

從23開始由於AI的井噴式爆發，導致市面上出現了數不過來的大模型，單說國內的大模型已經達到了百家以上，但細心的小夥伴會發現一個問題，就是大模型的網址功能變數名稱裡面會出現一個單詞「Chat」

而Chat在大模型中的真實含義指的是模型具備的對話能力，即能夠像人類一樣進行自然流暢的交流

1）Chat=對話在大模型中，“Chat” 表示模型具備與用戶進行多輪對話交互的能力。

這種對話不僅僅是簡單的問答，而是能夠理解上下文、記住對話歷史，並做出自然、連貫的回應。

2）Chat 也代表模型的應用場景

比如 ChatGPT，“Chat” 就是強調它的主要功能是聊天和對話，而 GPT 是 “Generative Pre-trained Transformer”（生成式預訓練變換模型）。

例：ChatGPT是一個對話機器人，真正的技術是大模型也就是GPT，技術不可以對話，Chat可以對話，Chat和GPT是兩個東西。

總結來說就是，在AI大模型中，Chat代表了模型的“對話交互能力”，讓模型不僅能“生成文字”，還能與用戶連貫且智慧地交流，提升互動體驗。

LLM又是什麼？

LLM 是 Large Language Model 的縮寫，意思是大型語言模型 。在平時生活中習慣性叫縮寫，「LLM」

1）核心特點

超大規模：擁有數十億到數萬億個參數。
訓練數據龐大：通常基於互聯網上的海量文本數據訓練，如書籍、文章、網頁等。
多功能性：可以完成文本生成、翻譯、總結、問答、對話、程式設計等多種任務。
自監督學習：通過“預測下一個詞”這種簡單的方式自我學習，逐漸掌握語言規律。

2）如何工作

輸入：用戶輸入一段文字，稱為“Prompt”。
Token 處理：LLM 將文本拆分為 Token。
預測：模型根據已有 Token，預測下一個最合理的 Token。
輸出：逐步生成完整的文本內容。

以上的步驟也就是正常去問大模型問題，他回答你問題的步驟，也是大模型工作的流程。

3）代表模型

什麼叫做Token

在提到token的時候，很多人會不陌生，比如在使用用「Deepseek」充值API的時候會發現明確標註著“每百萬token輸入xx元，每百萬輸出tokenxxx元”。那這個token到底是什麼東西呢，使用大模型所花的錢為什麼要按照token計算呢。

下表為「Deepseek」的token計費方式。

1）Token的含義

在大模型中，Token（標記） 是模型處理文字時的最小單位。大模型在訓練和推理時，不是直接處理整段文字，而是將文本拆分成一系列的 Token，再進行分析和生成。

Token 是什麼？

Token ≠ 字元，Token 可以是一個字、一個詞，甚至是詞的一部分。

Token 的拆分方式依賴於模型所使用的分詞演算法，常見的有以下兩種

位元組對編碼（BPE）：常用於英文，將詞按子詞拆分。
SentencePiece：支援多語言，更智慧地進行拆分。

2）token的計算方式標準是什麼？

token其實沒有固定的字數限制，2個字可能是一個token、3個字可能是一個token、4個字也可能是一個token。

並且英文的token計算方式和中文的計算方式還不一樣。

例：

英文句子

句子：ChatGPT is amazing!

Token 拆分（按 BPE 演算法可能是）：[‘Chat’, ‘G’, ‘PT’, ‘ is’, ‘ amazing’, ‘!’]

英文中ChatGPT 被拆成了 ‘Chat’、’G’ 和 ‘PT’，is 和 amazing 也分別作為獨立的 Token。

中文句子

句子：大模型很厲害。

Token 拆分（中文一般按字拆分）：[‘大’, ‘模型’, ‘很’, ‘厲害’, ‘。’]

中文中，模型和厲害可能會被作為整體 Token，也可能被拆開，取決於模型的訓練數據。

如果想知道一段文本的 Token 數，可以用 OpenAI 提供的 Tokenizer 工具進行測試。網址：https://platform.openai.com/tokenizer

經過本人的調研以及詢問身邊做AI的小夥伴來看一個普通人正常問一個問題大概在10-30個字之間。一個漢字算下來約等於0.6token，具體看漢字的複雜程度，最高是一個漢字一個token。上下聊天記錄也算token，輸出也算token

為什麼 Token 重要？

計費：像 ChatGPT 這類模型，通常按 Token 數量計費。
模型限制：每個模型都有最大 Token 長度限制，比如 GPT-4 的上下文長度是 128k Token。
輸出預測：模型的每次生成，是基於已有 Token 預測下一個 Token。

大模型依靠什麼計算token呢

上邊提到大模型會把問題的字數分為不同token，那他是依靠什麼來把字數分為不同token呢？

分詞器

提到token就不得不提到一個東西那就是「分詞器」

分詞器（Tokenizer）：是將自然語言文本拆分為 Token 並將其映射為模型可理解的數位 ID的工具。

分詞器和token關係

分詞器負責生成 Token，並將其轉化為數值，供模型使用。
模型訓練和推理時，輸入和輸出的基本單位都是 Token。

總結：分詞器 = 把文本變成 Token 的工具，Token 是模型理解和處理的基本單元。分詞器的效率和準確性，直接影響模型的性能和效果。

工作流程圖

流程整體對比

蒸餾模型是什麼？

蒸餾模型（Knowledge Distillation Model） 是一種模型壓縮技術，通過將大型模型（教師模型，Teacher Model）的知識“轉移”到一個更小、更輕量的模型（學生模型，Student Model），從而提升小模型的性能，同時減少其計算資源消耗。

通俗點解釋就是在原有大模型基礎上提取出來的小模型。Distill蒸餾意思，蒸餾出來的更小、清量、便捷。

為什麼需要蒸餾模型？

大型模型（Teacher Model）：雖然準確率高，但體積龐大、推理慢、部署成本高。
小型模型（Student Model）：雖然輕量，但準確率可能不高。
模型蒸餾：將大型模型中的“知識”提取出來，教給小模型，使其在更小體積下，接近大型模型的性能。

例子：本地部署Deepseek-R1-（滿血）671B → Deepseek-R1-Distil-70B

類似於Lora模型一般是在一個底模下煉製出來，可能是58億或者是120億參數的大模型，一般在中小企業用不到，所以只需要在大模型基礎上煉製一個小模型。一般用在垂直領域、醫療、出海等

參數是什麼？

在大模型（如大型語言模型，LLM）中，參數（Parameters）是模型中可學習的權重值，用於定義模型如何處理和理解輸入數據。

主要作用

權重和偏置：每個神經網路層中的神經元都有對應的權重（Weight）和偏置（Bias）。這些參數在訓練過程中不斷被調整，以最小化模型預測與實際結果之間的誤差。
學習知識：模型通過大量的數據訓練，將數據中的模式和規律“記憶”到這些參數中。參數越多，模型捕捉數據細節的能力通常越強。
規模越大，能力越強：一般來說，參數越多，模型的表達能力越強，能夠處理更複雜的語言和任務。
計算資源和成本：參數多意味著模型體積更大，訓練和推理需要更多的計算資源和時間。