企業要接入 DeepSeek 等大模型,應當注意哪些風控問題?
更新于:2025-03-26 09:12:35

隨著AI大模型如DeepSeek的興起,越來越多的企業希望接入這些技術以提升效率和產品體驗。然而,企業使用大模型並非簡單的技術接入,還涉及諸多風險控制問題。本文從經營和業務視角出發,詳細梳理了企業在接入大模型時可能面臨的風控挑戰,並提出了針對性的解決方案,供大家參考。

DeepSeek 的熱潮,從春節一直持續到現在,一浪接一浪。最開始是科技媒體和自媒體,對於 DeepSeek 展開討論,而現在湊風口的,則是眾多企業,紛紛宣佈接入了 DeepSeek,就連國民級應用微信,以及競爭對手文心一言和騰訊元寶,也紛紛宣佈在自家大模型的軟體裡,接入了 DeepSeek 。

AI 的發展勢不可擋,AI 革命正在如火如荼,很多企業都有接入大模型產品,提升內部效率或者產品體驗的意願和需求。但是,企業使用大模型不同於個人,要考慮商業機密、業務安全等等諸多問題。

本文,我們就徹底釐清楚,企業要接入大模型,應當注意哪些風控問題。這不是一篇技術文章,而是更多的從經營和業務視角,用相對通俗的語言,識別出企業在實際落地 AI 過程中,不可忽視的 AI 風險。

01 接入大模型,會面臨哪些潛在風險

在研究大模型的風控問題前,我們首先要明確,企業接入大模型,都有哪幾種方式。

我在《業務中“接入大模型”,到底有哪幾種接入方法?》一文中專門寫過,不論是 DeepSeek,還是其他大模型,企業能夠接入的方式,一般就是以下 5 種,這張表格總結了各種方式的優劣勢。

在不同的接入方式里,由於部署方法和使用方式的不同,所包含的風控點也不同。

個人直接使用平臺功能,和通過智慧體平臺搭建 Agent,這兩種方式,由於是公用平臺,因此數據保密等級最低,作為個人工作的 Copilot(副駕駛、助理),沒太多問題,但如果要把企業的機密資訊傳入,就容易產生資訊洩漏。

API 調用、私有化本地部署、通過雲服務商間接部署,這三種方式,一方面涉及到對大模型的調整和訓練,另一方面也涉及到模型輸出內容會公開,所以涉及到比較多的風險,比如訓練數據合規、許可權控制、輸出內容審查等。

具體的風險類型和處理方法,我們在下文詳細展開。

02 如何進行 AI 大模型的企業風控

根據 AI 的消費者與 AI 大模型產生交互的時機,我們把企業接入大模型的風險,分成三個階段:傳入模型時風控、模型處理中風控、模型輸出時風控。

傳入模型時風控

這一階段,是信息進入大模型的入口階段,日常的 AI 問答不會有問題,最大的風險,就是業務敏感資訊洩漏和數據合規。

風險點一:數據安全風險(保密數據、隱私數據)。

在實際工作中,會因為業務需要,把實際業務的真實數據、或者重要的商業機密髮送給 AI,在這個過程中,很容易將公司的核心機密流傳出去。

例如 AI 能力的提供者(不一定是大模型的研發公司,也有可能是提供 AI 服務的第三方等)可以查看到使用者與 AI 對話的內容;或者 AI 在接收到資訊后,內化於自己的資料庫,在與另外的用戶對話時,將資訊洩漏;又或者“偽當地語系化”部署方案中,若介面加密不完善,攻擊者可通過逆向工程竊取傳輸中的業務數據。

解決方法就在於對於數據安全的重視,主要是 2 個:

1. 針對保密數據和隱私數據,在底層的表結構上,就做好許可權控制。基本原則是「最小許可權原則」,即限制數據可訪問的範圍和保密等級,例如一些敏感數據,只有達到一定許可權的人才能增刪查改,其他人不能訪問,從數據獲取的源頭上,就做好把關。

2. 加強公司成員保密意識,在使用 AI 時,對敏感數據進行脫敏處理。AI 的運行過程中,如果必須使用某些數據,那麼就應當對數據進行脫敏,比如 AI 大模型在調用用戶數據表時,提前將使用者的身份證號和手機號,進行模糊化處理。

風險點二:訓練數據合規風險

除了數據保密的風險,企業還得多關注訓練數據的合規性。什麼意思呢?就是拿來訓練大模型的數據,必須得合法合規,不能踩法律的紅線。尤其是隱私保護和智慧財產權,稍微不注意,就可能讓公司在法律框架內觸及紅線。如果某些數據只是拿來訓練,不會對外提供服務,那麼訓練過程中,要做好數據生命週期的管理工作,及時銷毀使用完的數據。

同時,數據的品質把控也得過硬,這是為了大模型的品質考慮,這很好理解,如果數據品質過差,大模型的水準自然也不會好。

模型處理中風控

模型處理中的風控問題較多,某種程度上,也不僅僅是技術上的風控問題,也是企業內控的一些要求。在這個階段,需要關注的風控問題主要有 5 個。

風險點一:模型倫理風控

因為 AI 訓練的過程,大多是黑盒,很多時候,我們並不知道 AI 在處理資訊時,究竟是怎麼一個“腦迴路”,所以大模型往往會搞出一些科技倫理問題。模型倫理這塊兒,主要是別讓 AI“學壞了”。

比如招聘場景下,AI 可能因為歷史數據男性偏多,因此在進行處理時,形成對女性的偏見;或者由於網路上對於某個人群的過度歧視,導致 AI 進一步加強這種歧視。

所以在模型訓練中,企業必須得用多樣化的數據,把偏見扳回來,還需要在產品研發流程上,增加一些倫理審核流程,別讓模型做出違背道德倫理和科技倫理的行為。畢竟,誰也不想自家 AI 變成“道德滑坡”的典型吧……

風險點二:模型可解釋性

模型可解釋性,通俗點講,就是得搞清楚模型為什麼這麼決定。

大模型的訓練與使用過程,我們已經非常熟悉:將問題和需求告知 AI,AI 自行處理後返回結果,這個結果可能是符合常理的,也有可能是完全意想不到的。這種不可控性,對於大多數場景而言,都是無害的,甚至能通過天馬行空的想像,挖掘出不一樣的靈感。

但是,有一些場景,AI 的不可控性,反而會成為掣肘,如果讓模型黑盒跑,誰也不知道它怎麼想的,那出了錯,都沒法向用戶解釋,嚴重一點,監管也會找上門。

而且,光和 AI 聊天,還只是算是初步應用,要想讓 AI 能夠大規模釋放生產力,還是得讓 AI 進入到工作流程中。比如金融方案、醫療推薦,AI 產生一個答案,那產出的過程中,因為什麼?參考了什麼?邏輯是什麼?理由是什麼?怎麼推理出這個答案?這些問題,都需要能夠有理有據的擇出來,也就是大模型的推理結果,要有「可解釋性」。

可解釋性的保障,不僅僅要在模型嚴謹程度的參數上做調整,也要在產品流程上進行介入。例如在產品流程上,強制性讓 AI 處理過程分為幾個步驟,並每個步驟強制性索引所有引用到的材料,或者在每個步驟,都設置監控工具,確保出了問題,能查到根源。

風險點三:行業合規要求

主要是特定行業和特定區域的合規要求,比如醫療行業的臨床要求、歐盟國家的 GDPR(歐盟跨境數據法規)等。

風險點四:算力、成本、運維的內控問題

尤其是私有部署的方案中,企業內部能夠形成“成本陷阱”的地方特別多,因此,企業在內部制度上,要做好企業內控和技術方案的選擇。

大模型的訓練,所需要的算力,是非常大的成本,即使是採用公有雲的部署方案,花費也不低。因此,選擇怎樣的技術實現方案,性價比更高?哪個雲服務的配套,更有優勢?算力是否有閑置,算力採購過程中是否有舞弊?這些都能看作是大模型部署的內控關注點,不要稀里糊塗的把錢燒出去。

風險點五:模型失效與性能退化

是的,模型也是會退化的。

大模型部署完成後,並非一勞永逸,即使不考慮新模型對舊模型的超越,單就同一個模型來看,也存在性能退化的問題,時間長了可能就“老化”了。

這種老化,一般是由於數據分佈漂移、數據迴圈污染等原因造成。數據分佈漂移就是,現實世界的情況會隨著時間變化,但模型中的數據不會,就會產生偏差(比如 20 世紀的某些政策並不能套用到 21 世紀)。數據迴圈污染是大模型與大量用戶對話后,被拉低了數據品質,導致模型的繭房加劇,偏差加大。

所以在應對模型失效與退化上,監控和預警機制、數據更新和再訓練的策略、數據容災與回滾機制等措施,都很重要。同時,在組織與流程上的保障也是要考慮的,比如專門的團隊和 SOP,來對模型的實際表現,進行定量和定性的監控。

模型輸出時風控

這個過程比較容易理解,就是對於模型輸出的內容,本身也需要進行一定的篩選和過濾,以便符合內容合規的要求。這部分的內容風控,本質上與社交媒體發佈信息時間的風控,是類似的。

輸出階段,傳統的信息合規要注意:

  1. 政策層面的內容合規,要符合監管的要求。
  2. 社區氛圍的良性導向,如謾駡、隱私等。
  3. 社區使用者安全的保證。

這部分現有的解法都非常成熟,機器學習+人工審核的配套方案,基本上不會出現問題。

AI 場景中,還需要額外注意一個“AI 幻覺”的問題。目前的大模型,或多或少都有這個毛病,愛“胡說八道”,比如編個不存在的事實,或者胡扯一個數據來源。所以在某些嚴肅場景下的業務,企業要在輸出檢查上,多做幾道驗證。

03 風控是為了更好的創新

接入大模型,能給企業帶來效率和創新,但風險也不少。從傳入模型時的數據保密和合規,到處理中的可解釋性、倫理、行業標準、成本控制和性能維護,再到輸出時的內容審查和減少幻覺,企業得全盤考慮,步步為營。

怎麼管好這些風險?需要有一個完整的 AI 治理框架,數據得管嚴、合規得做足、模型得選對、部署得合理,並且隨時優化。只要把這些風控點掐住了,企業才能放心用 AI,既安全又高效。

作者:亨哼;公眾號:產品變數(ID:hengpaper)

本文由 @亨哼 原創發佈於人人都是產品經理,未經許可,禁止轉載

題圖由作者提供

小雞專注app功能拆分
小雞專注app功能拆分
2025-03-25 23:27:02