開源 AI 之爭:為何選擇性透明度構成嚴重風險
更新于:2025-03-26 05:45:54

隨著科技巨頭宣稱他們的 AI 發佈是開放的——甚至將"開放"一詞納入其名稱中——曾經只在業內流行的術語"開源"已經進入了現代時代精神。在這個關鍵時期,一家公司的失誤可能會使公眾對 AI 的接受度倒退十年或更長時間,開放性和透明度的概念被隨意使用,有時甚至不誠實地用來培養信任。

同時,隨著新的白宮政府對科技監管採取更加放手的態度,戰線已經劃定——創新與監管相對立,並預測如果"錯誤的"一方獲勝將會帶來嚴重後果。

然而,還有第三條道路,它已經在其他技術變革浪潮中被測試並證明有效。基於開放性和透明度原則的真正開源協作,即使在授權行業開發無偏見、合乎道德且有益於社會的技術的同時,也能釋放更快的創新速度。

理解真正開源協作的力量

簡單來說,開源軟體具有可以自由查看、修改、分析、採用和分享(用於商業和非商業目的)的原始程式碼——從歷史上看,它在培養創新方面具有重大意義。例如,開源產品 Linux、Apache、MySQL 和 PHP 釋放了我們所知道的互聯網潛力。

現在,通過民主化對 AI 模型、數據、參數和開源 AI 工具的訪問,社區可以再次釋放更快的創新,而不是不斷地重新創造輪子——這就是為什麼 IBM 最近對 2,400 名 IT 決策者的研究顯示,人們對使用開源 AI 工具來提高投資回報率的興趣日益增長。在確定 AI 投資回報率時,更快的開發和創新位居榜首,研究還證實,採用開放解決方案可能與更大的財務可行性相關。

開源 AI 不是追求有利於少數公司的短期收益,而是邀請在不同行業和領域創建更多樣化和定製化的應用程式,這些行業和領域可能沒有專有模型所需的資源。

或許同樣重要的是,開源的透明度允許對 AI 系統的行為和倫理進行獨立審查和審計——當我們利用大眾現有的興趣和動力時,他們會發現問題和錯誤,就像他們在 LAION 5B 數據集事件中所做的那樣。

在那個案例中,群眾找出了隱藏在數據中的超過 1,000 個包含已驗證兒童性虐待材料的 URL,這些數據為 Stable Diffusion 和 Midjourney 等生成式 AI 模型提供燃料——這些模型可以根據文本和圖像提示生成圖像,是許多在線視頻生成工具和應用程式的基礎。

雖然這一發現引起了軒然大波,但如果該數據集像 OpenAI 的 Sora 或 Google 的 Gemini 那樣是封閉的,後果可能會更嚴重。很難想像如果 AI 最令人興奮的視頻創作工具開始生成令人不安的內容會引起什麼樣的反彈。

值得慶幸的是,LAION 5B 數據集的開放性使社區能夠促使其建立者與行業監督機構合作,找到解決方案併發佈 RE-LAION 5B——這說明了為什麼真正開源 AI 的透明度不僅有利於使用者,還有利於努力與消費者和公眾建立信任的行業和創造者。

AI 中的"開源魔法"的危險

雖然單獨的原始程式碼相對容易共用,但 AI 系統比軟體複雜得多。它們依賴於系統原始程式碼,以及模型參數、數據集、超參數、訓練原始程式碼、隨機數生成和軟體框架——這些元件必須協同工作,AI 系統才能正常運行。

在 AI 安全性引發擔憂的情況下,宣稱發佈是開放的或開源的已經變得很普遍。然而,要使這一說法準確,創新者必須共用拼圖的所有部分,以便其他參與者可以完全理解、分析和評估 AI 系統的屬性,最終複製、修改和擴展其功能。

例如,Meta 吹噓 Llama 3.1 405B 是"第一個前沿級開源 AI 模型",但只公開共用了系統的預訓練參數(或權重)和一些軟體。雖然這允許使用者隨意下載和使用該模型,但關鍵元件如原始程式碼和數據集仍然保持封閉——這在 Meta 宣佈將 AI 機器人資料注入乙太中,同時停止審核內容準確性的情況下變得更加令人擔憂。

公平地說,被分享的內容確實對社區有所貢獻。開放權重模型提供了靈活性、可訪問性、創新性和一定程度的透明度。例如,DeepSeek 決定開源其權重,發佈其 R1 技術報告並免費使用,這使 AI 社區能夠研究和驗證其方法並將其融入他們的工作中。

然而,當沒有人能夠真正查看、試驗和理解創建它的每個拼圖塊時,將 AI 系統稱為開源是誤導性的。

這種誤導不僅威脅公眾信任。它不是讓社區中的每個人都能在像 Llama X 這樣的模型基礎上進行協作、構建和改進,而是迫使使用此類 AI 系統的創新者盲目相信未共享的元件。

迎接我們面臨的挑戰

隨著自動駕駛汽車在主要城市上路,AI 系統在手術室輔助外科醫生,我們才剛剛開始讓這項技術接管象徵性的方向盤。承諾是巨大的,出錯的可能性也很大——這就是為什麼我們需要新的衡量標準來定義在 AI 世界中什麼是值得信賴的。

例如,即使斯坦福大學的 Anka Reuel 和同事最近嘗試為用於評估模型表現的 AI 基準建立新框架,行業和公眾依賴的審查實踐仍然不夠充分。基準測試未能考慮到學習系統核心的數據集在不斷變化,以及適當的指標因用例而異。該領域還缺乏豐富的數學語言來描述當代 AI 的能力和局限性。

通過共享整個 AI 系統以實現開放性和透明度,而不是依賴不充分的評審和對流行詞彙的敷衍了事,我們可以促進更大的協作,並培養具有安全和道德開發的 AI 的創新。

雖然真正的開源 AI 提供了實現這些目標的經驗證框架,但行業中存在令人擔憂的透明度缺失。如果沒有科技公司的大胆領導和合作來自我管理,這種資訊差距可能會損害公眾信任和接受度。擁抱開放性、透明度和開源不僅僅是一個強大的商業模式——它也是在一個有利於所有人而不僅僅是少數人的 AI 未來之間做出選擇。