能大致講一下 DeepSeek 的原理嗎?
更新于:2025-03-29 22:55:41

講技術名詞會讓人雲裡霧裡,這個回答我盡量用大白話來解釋。

DeepSeek開放的模型有兩個:V3和R1,它倆的區別我會用下面的例子來展示。

這是一個非常簡單的數學題:1+1等於幾?

這是V3給出的回答,簡單直接。

同樣的問題問R1,它會想半天,甚至會懷疑我在考驗它,最終得出「一組結果」,這一組包含了四個回答。

你應該能感受到V3和R1的直觀差別,那就是V3會直接給出你回答,就像一條直線。而R1不一樣,它會經過反覆的思考,盡可能的考慮到所有的可能性,最後面謹慎的下結論。

而造成這個差別的主要原因就是R1模型比V3模型多了一層思考的機制,這個機制就是思維鏈CoT(Chain of Thought)。

簡單來說,V3就像一個不諳世事,一直待在家裡學習的學霸,它對於所有的問題都根據自己的直覺給出回答,比如我們給它的問題1+1=?。它的直覺告訴它這就是個簡單的數學題,然後它就直接做出了回答。

而R1不一樣,它是走進社會,瞭解了社會險惡的V3。它做事不再只是根據直覺,而是考慮周到,做事圓滑,即使是一件小事,它也會盡可能的全方位考慮,盡量的不出錯。

你看,它會從各種角度來考慮1+1=?這個問題,甚至會覺得這麼簡單的也問,是不是「用戶在開它的玩笑?」,這其實是符合常理的,因為但凡有個人正經的問我這個問題,我都會在心裡打個問號?,肯定有詐。

R1比V3多出來的這一套東西,其實就是思維鏈,也就是我們平時思考問題的方式。

這也是我為什麼一直強調現在學習DeepSeek這類AI的重要性,因為你如果對它瞭解不深的話,AI的很多潛力很難挖掘出來,尤其是現在很多企業都在用 AI 重塑業務形態,而這一切都需要懂 AI 的人來實現,這就催生了很多高薪的AI崗位需求,比如北京的 AI 產品經理基本月薪35k以上,AI 訓練師月薪也是 30k+……屬實誘人。

瞭解DeepSeek的最好方式就是瞭解它的底層原理以及應用方式,不過這個有點複雜,系統了解的話建議去看一下大模型應用開發的公開課,裡邊有DeepSeek的技術原理講解、落地案例分析,行業趨勢揭秘等,説明大家全面瞭解AI產品技能和知識,入口我放在下面了,直接聽就行↓

聽完你就會發現「原來那些看起來高深莫測產品是用了這個技術啊」、「原來這個技術也可以用在我的產品里啊」,直接拉進你跟最新技術的距離,非常酷~

對於DeepSeek來說,它的思考過程為拿到問題-分析問題-頭腦風暴-確定最可能的解法-給出回答,正好對應了R1的思考過程。

R1在思考過程結束後,會根據可能性對它的所有想法排個序,因為對於一個問題的解法可能有無數種,但是最終的回答只能有一個。

那麼它會輸出概率最大的那個,對於1+1=?來說,可能性最大的就是簡單的數學題。

所有DeepSeek R1最終給出了這個回答。

V3就是所謂的傳統大模型,而R1是推理大模型,他們倆的應用場景不一樣,推理大模型的對應的是複雜問題,需要很多個複雜步驟才能解決的問題,比如複雜數學問題,代碼生成,邏輯推理等。

而簡單的任務,特別是不需要多加考慮直接出結果的問題,比如寫命題作文,翻譯,簡單數學問題。

那我們用一個稍微複雜點的數學題再問一次,這是2023年的高考數學題,因為是選做題,難度可想而知。

先用V3來做,很自信的給出了答案,但可惜的是不對。

而DeepSeek R1在思考了419秒后給出了正確答案。

這就是DeepSeek R1的正確打開方式,也就是複雜問題才值得問R1。

如果問題太簡單直接,比如1+1=?這樣的,反而是造成DeepSeek R1進行過度思考

複雜問題不僅僅包括數學,我這裡展示一個例子,用 DeepSeek 的R1 深度思考模式,給它提出一個比較離譜的問題:“假如一個普通人手裡只有 3000 元,如何在沒有其他資源的情況下,通過努力實現 100 萬元的收益?

這是一個典型的複雜問題,因為它涉及到很多方面的考量,背景分析、財務分析、數學計算等,這種只有R1才能夠解答。

更重要的是DeepSeek幾乎接入了絕大多數你耳熟能詳的應用中,再加上第三方軟體的加成,DeepSeek更是可以覆蓋絕大多數的工作學習場景。

總的來說,DeepSeek是一個概率模型,它會輸出它覺得最可能的那個回答,不同的是V3模型適合解決簡單問題,R1模型更擅長做複雜問題,不同模型需要通過「深度思考」這個按鈕進行啟動。