能大致講一下 DeepSeek 的原理嗎?
更新于:2025-03-25 23:24:58

美國的AI團隊一直覺得自己是全球的“老大”,技術領先。DeepSeek的出現,卻讓他們“栽了大跟頭”

。DeepSeek 的翻譯流暢度相較於 ChatGPT 和 Gemini 進步顯著,而就連馬拉雅拉姆語用戶都驚呆了。

既然這麼火,那就肝一篇吧。接下來,這將會是人人都能看懂的DeepSeek 原理說明書!

生活中,目前包括現在的小孩子都已經有自己的手機了,甚至可以利用自己父母的手機玩DeepSeek,DeepSeek幾乎可以算得上無所不知,父母用它來給小朋友講故事,一些簡單的智力題目更是不在話下

在這各種場景下,其實涉及到DeepSeek的一個最最基本也是核心的功能,就是問答,也是DeekSeek的各個模組的最直接的功能。

DeepSeek的第一個模組R1,其實非常的簡單直接,特別是在數學、代碼及自然語言推理領域與OpenAI o1比肩的開源大模型,以其全面、詳實的回答和結構化輸出著稱。

你只要給他輸入文字,它輸出給你,

比如你輸入starrBerrry,它會給出4個字母的t

有人會覺得,它開玩笑,的確,卻是開玩笑了,然後我們給他說,你看錯了

DeepSeek經過分析,推理和糾正,真的就給出了正確的答案

這是因為R1 創造性地基於 DeepSeek V3 基座模型,通過自己的特殊手段,增強LLM技術,得到了一個強推理模型,並且採用了採用了基於規則的方法,這是DeepSeek的第一個貢獻。

從下面的圖可以看到,除了DeepSeek R1模型的增強之外,還進行深度推理 SFT 數據與通用 SFT 數據的混合微調,這對於跨任務泛化更加精確和高效。

所以DeepSeek在回答的問題跟人類會有一些不同,比如我們在背誦乘法口訣的時候都是知道一一得一,一二得二,後面我們已經確定一三得三,作為人類來講後一句肯定是對得。當然我們可以隨便編一個不在乘法口訣中得,比如11x11=121,我們是回答了,但是我們知道值計算得不對,但是不屬於九九乘法口訣。

但是DeepSeek在回答的學習資料來自於公開的數據,如果網上公開的所有的資料里都包含11x11,那麼,DeepSeek的回答可以說是又快又準!

DeepSeek R1的規則驅動強化學習聽起來高大上,但規則都是人定的,遇到新情況就可能抓瞎。還是數據為王,實戰中不斷優化才是正道。

這也是我為什麼一直強調現在學習AI的重要性,現在的AI雖然已經很智慧了, 但還在初始階段,接下來的3年內,必將是AI重塑和訓練,尤其是想百度,阿裡巴巴,或者是騰,位元組為主的企業巨頭都在用 A1重塑業務形態,這就需要懂LLM的人來去實現它,當然也會衍生出來很多的AI崗位需求,據說大模型應用開發可以高達60K的offer,實在是讓人看了眼饞.....

當然想做這方面的工作,需要瞭解LLM的底層和演算法,看看DeepSeek R1的底層還是滿複雜的,不過可以看一下AI解決方案公開課,裡邊有DeepSeek的底層技術原理講解、MOE新架構特色,還有讓你直接上手微調的Demo,直接可以移植到你自己的項目裡面,入口我放在下面了,直接聽就行:

你甭說,很多人都在學習整個課程,前幾天個人還在用大模型知識創建了一個AI智慧體,下一步打算進階AI數位人,希望為時不晚。

在說說DeepSeek-V3,它是一款強大的混合專家(MoE)語言模型,總參數量達到6710億,每個token啟動370億參數。

其中其V3的核心機制包括多頭自注意力機制和前饋神經網路,這兩個也是DeepSeek的核心技術。

多頭自注意力機制其實是這樣

前饋神經網路是這樣的

DeepSeek-v3的內部的實現是非常的巧妙的,訓練沒有採用TP並行. 針對MoE的AlltoAll做了極致的優化:

其訓練過程如下

採用了FP8的混合精度訓練作為基層訓練

設計了基於DualPipe的演算法用pipeline並行的機制,利用這樣的框架,其優勢具有是為了使用更少的pipeline bubble才處理流資訊。

網上有人穿DeepSeek 蒸餾GPT-4O模型的數據,首先我覺蒸餾在演算法開發中是很正常的事,有什麼不好的。並且在論文自己不是都說了是蒸餾的。機器學習,相互學習很正常,你拿到了結果,我拿結果再篩選精華的,用於自身。OPENAI的結果也是學習全世界互聯網的成就。

只不過一般的蒸餾是用大的模型蒸餾小的模型,減少部署開銷。而deepseek是用GPT的小模型蒸餾大模型,為了以更少的成本獲取較好的數據。deepseek也開放自己的模型去給別人隨便用,包括生成高質量數據。

deepseek是在自家v3基礎上,做了一定激勵框架的設計,弄出了一個r1-zero,然後又用r1-zero訓練出來數據回去訓了一把v3得到了r1

這樣反覆搞了幾次,最牛逼的是,用r1產出高質量數據給阿裡模型訓了一下,效果出奇好。

而且整個過程中,在訓練工程上也做了很多優化,畢竟算力沒那麼多,倒逼的。

所以DeepSeek我覺得是真牛,拜託了structure的拘束,開啟推理方向。學的越多正確率越高。

而深度思考的DeepSeek就做的事這件事,接收各種類型的輸入並且輸出各種類型的輸出。

事實上,矽谷的AI背後也是靠咱們華人撐起大半邊天。緣由很簡單,中文是世界上資訊密度最高的語言,而我們中國人是被這種語言滋養長大的智慧體,未來配合全體華夏智慧而成的DeepSeek,1+1 會到達更加高維的世界。

這篇問答主要的作用是通俗的解釋了DeepSeek的底層運行原理,其實很多的技術細節略有設計或者是完全沒有提到。如果小夥伴們對於DeepSeek的其他細節比如底層演算法,MOE架構模型,以及R1的框架想瞭解的更多,建議大家可以去看看知學堂開設的大模型應用課程,裡面還有一些深入淺出的技術細節講解和DeepSeek的可微調測試商業化的Demo給你參考

+插卡

看明白了,不出三天,DeepSeek原理和訓練你自然就懂了!