當大模型創作的內容又反過來被大模型當做訓練語料,大模型是否會成為一個迴音壁?
更新于:2025-04-10 10:13:41

用現有的大模型“創作”的文字、圖像、視頻等“內容”訓練大模型,有可能出現“回音室效應”:

  • 當前網路上存在的、由大模型生成的一些內容帶有明顯的事實錯誤·邏輯混亂·時代特徵,常常具有一目了然的固定模式。用這些內容訓練新的大模型,新模型的輸出品質可能會在如此輸入的影響下惡化,輸出內容可能會變得單一、過時、不切實際。
  • 不對上述狀況進行處理的話,不良後果可能會影響大模型的發展。

以上現象未必適合表述成這問題發佈時“成為一個回音壁”的說法。當然,這是不同的人對詞語的不同用法,對討論這個問題來說並不重要。

2023 年初,一些研究人員以預印本報告,讓人工智慧使用主要由人工智慧生成的文本進行訓練,會在反覆運算數次後引起若干內容丟失、文本品質下降,對圖像生成人工智慧進行類似操作會引起清晰度下降等劣化,乃至讓圖像完全變形[1]。他們認為這“模型崩潰”現象是普遍存在的。這在歐美網路上暫時引發關於“垃圾進、垃圾出”的熱議。有興趣的讀者可以搜索“遞歸的詛咒(The Curse of Recursion)”看看當時的討論。

顯然,問題不在於內容是人做出來的還是機器生成的,問題是內容的準確性、多樣性、可改進性。人做出來的一些東西同樣不適合用於訓練大模型。

大模型的訓練者可以對數據進行人工標註和篩選,濾掉低質、重複、錯誤的資訊。他們可以從不同語言、文化、專業領域定期獲取新鮮數據,避免依賴單一來源。他們可以控制在每一代新模型的訓練數據中來自上一代模型的數據所佔的比例。2024 年,一些研究人員用不太成熟的文章報告說,積累數據而不是用機器生成的數據逐步替換掉舊的訓練數據,能夠在他們估計的範圍內避免“模型崩潰”現象的發生[2]

將來,大模型輸出的內容質量足夠高的時候,以上質量問題大概會自動退出歷史舞臺。