隨著AI技術的飛速發展,大模型如ChatGPT等已成為人工智慧領域的熱門話題。然而,這些看似“靈性”的創造行為背後,實則隱藏著精密的機械邏輯和技術架構。本文將深入解析AI大模型背後的秘密,從Chat的含義、LLM(大型語言模型)的定義、Token的計算方式、蒸餾模型的作用,供大家參考學習。
當AI開口說話時,機器在思考什麼?
淩晨三點的伺服器機房,數以萬計的顯卡矩陣在黑暗中閃爍著幽藍微光,神經網路中奔湧著每秒數萬億次的矩陣運算。當ChatGPT為你寫出一首精巧的俳句,當Comfy UI的工作流生成令人驚歎的數字藝術,這些看似充滿”靈性”的創造行為背後,實則運行著一套精密如鍾錶般的機械邏輯。
當你仔細研究一下會發現,大模型並不是常人所想像的那麼簡單。
例如我們在用「Deepseek」充值API的時候會發現明確標註著“每百萬token輸入xx元“又或者說本地部署時候總能提到的「滿血版」「32B」等。這些到底是什麼東西呢?
接下來就讓我這個自詡站在大模型前沿的作者帶你揭開大模型的神秘面紗,帶你揭秘大模型背後的秘密。
從23開始由於AI的井噴式爆發,導致市面上出現了數不過來的大模型,單說國內的大模型已經達到了百家以上,但細心的小夥伴會發現一個問題,就是大模型的網址功能變數名稱裡面會出現一個單詞「Chat」
而Chat在大模型中的真實含義指的是模型具備的對話能力,即能夠像人類一樣進行自然流暢的交流
1)Chat=對話在大模型中,“Chat” 表示模型具備與用戶進行多輪對話交互的能力。
這種對話不僅僅是簡單的問答,而是能夠理解上下文、記住對話歷史,並做出自然、連貫的回應。
2)Chat 也代表模型的應用場景
比如 ChatGPT,“Chat” 就是強調它的主要功能是聊天和對話,而 GPT 是 “Generative Pre-trained Transformer”(生成式預訓練變換模型)。
例:ChatGPT是一個對話機器人,真正的技術是大模型也就是GPT,技術不可以對話,Chat可以對話,Chat和GPT是兩個東西。
總結來說就是,在AI大模型中,Chat代表了模型的“對話交互能力”,讓模型不僅能“生成文字”,還能與用戶連貫且智慧地交流,提升互動體驗。
LLM 是 Large Language Model 的縮寫,意思是大型語言模型 。在平時生活中習慣性叫縮寫,「LLM」
1)核心特點
2)如何工作
以上的步驟也就是正常去問大模型問題,他回答你問題的步驟,也是大模型工作的流程。
3)代表模型
在提到token的時候,很多人會不陌生,比如在使用用「Deepseek」充值API的時候會發現明確標註著“每百萬token輸入xx元,每百萬輸出tokenxxx元”。那這個token到底是什麼東西呢,使用大模型所花的錢為什麼要按照token計算呢。
下表為「Deepseek」的token計費方式。
1)Token的含義
在大模型中,Token(標記) 是模型處理文字時的最小單位。大模型在訓練和推理時,不是直接處理整段文字,而是將文本拆分成一系列的 Token,再進行分析和生成。
Token 是什麼?
Token ≠ 字元,Token 可以是一個字、一個詞,甚至是詞的一部分。
Token 的拆分方式依賴於模型所使用的分詞演算法,常見的有以下兩種
2)token的計算方式標準是什麼?
token其實沒有固定的字數限制,2個字可能是一個token、3個字可能是一個token、4個字也可能是一個token。
並且英文的token計算方式和中文的計算方式還不一樣。
例:
英文句子
句子:ChatGPT is amazing!
Token 拆分(按 BPE 演算法可能是):[‘Chat’, ‘G’, ‘PT’, ‘ is’, ‘ amazing’, ‘!’]
英文中ChatGPT 被拆成了 ‘Chat’、’G’ 和 ‘PT’,is 和 amazing 也分別作為獨立的 Token。
中文句子
句子:大模型很厲害。
Token 拆分(中文一般按字拆分):[‘大’, ‘模型’, ‘很’, ‘厲害’, ‘。’]
中文中,模型 和 厲害 可能會被作為整體 Token,也可能被拆開,取決於模型的訓練數據。
如果想知道一段文本的 Token 數,可以用 OpenAI 提供的 Tokenizer 工具 進行測試。網址:https://platform.openai.com/tokenizer
經過本人的調研以及詢問身邊做AI的小夥伴來看一個普通人正常問一個問題大概在10-30個字之間。一個漢字算下來約等於0.6token,具體看漢字的複雜程度,最高是一個漢字一個token。上下聊天記錄也算token,輸出也算token
為什麼 Token 重要?
大模型依靠什麼計算token呢
上邊提到大模型會把問題的字數分為不同token,那他是依靠什麼來把字數分為不同token呢?
分詞器
提到token就不得不提到一個東西那就是「分詞器」
分詞器(Tokenizer):是將自然語言文本拆分為 Token 並將其映射為模型可理解的數位 ID的工具。
分詞器和token關係
總結:分詞器 = 把文本變成 Token 的工具,Token 是模型理解和處理的基本單元。分詞器的效率和準確性,直接影響模型的性能和效果。
工作流程圖
流程整體對比
蒸餾模型(Knowledge Distillation Model) 是一種模型壓縮技術,通過將大型模型(教師模型,Teacher Model)的知識“轉移”到一個更小、更輕量的模型(學生模型,Student Model),從而提升小模型的性能,同時減少其計算資源消耗。
通俗點解釋就是在原有大模型基礎上提取出來的小模型。Distill蒸餾意思,蒸餾出來的更小、清量、便捷。
為什麼需要蒸餾模型?
例子 :本地部署Deepseek-R1-(滿血)671B → Deepseek-R1-Distil-70B
類似於Lora模型一般是在一個底模下煉製出來,可能是58億或者是120億參數的大模型,一般在中小企業用不到,所以只需要在大模型基礎上煉製一個小模型。一般用在垂直領域、醫療、出海等
在大模型(如大型語言模型,LLM)中,參數(Parameters)是模型中可學習的權重值,用於定義模型如何處理和理解輸入數據。
主要作用
大模型的參數是其核心學習元素,決定了模型的能力邊界、性能表現和計算成本。更大的參數量通常意味著更強的模型能力,但也需要更高的硬體資源和優化策略。
舉例
思維鏈(Chain of Thought,簡稱 CoT) 是一種提升大模型推理能力的技術,指引模型在回答複雜問題時,逐步展示中間推理步驟,而不僅僅給出最終答案。
重要性
在傳統的模型推理中,模型通常直接給出答案,但面對邏輯推理、數學計算、複雜問答等問題時,單步回答容易出錯。
思維鏈通過引導模型分步驟思考,可以:
例子 :
問題:小明有 3 個蘋果,他又買了 5 個蘋果,然後吃掉了 2 個。請問他現在有多少個蘋果?
普通回答:6 個。
思維鏈回答:
答案:6 個。
目前市面上支持思維鏈的模型有哪些
原生支援:如 GPT-4、Claude 3、Gemini 1.5、DeepSeek-R1、通義千問,無需特別優化即可高效進行思維鏈推理。
部分支援:如 Llama 2、Mistral,需要通過提示優化或額外訓練才能實現高效的思維鏈推理。
這裡需要說一下,好多大模型是在DeepSeek開源后逐漸出的思維鏈。
以上就是作者本人所瞭解到的大模型的知識,在這個AI時代,應該多瞭解一些AI的知識。
下期再見
本文由 @A ad鈣 原創發佈於人人都是產品經理。未經作者許可,禁止轉載
題圖來自Unsplash,基於CC0協定
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供資訊存儲空間服務