當大模型創作的內容又反過來被大模型當做訓練語料，大模型是否會成為一個迴音壁？_港資訊

當大模型創作的內容又反過來被大模型當做訓練語料，大模型是否會成為一個迴音壁？

科技互聯網知乎模型混元腾讯伏羲网易 gpt 赵增讯飞人工智能备案生成孟子蒋杰语言模型写作周明

更新于：2025-04-10 10:13:41

用現有的大模型“創作”的文字、圖像、視頻等“內容”訓練大模型，有可能出現“回音室效應”：

當前網路上存在的、由大模型生成的一些內容帶有明顯的事實錯誤·邏輯混亂·時代特徵，常常具有一目了然的固定模式。用這些內容訓練新的大模型，新模型的輸出品質可能會在如此輸入的影響下惡化，輸出內容可能會變得單一、過時、不切實際。
不對上述狀況進行處理的話，不良後果可能會影響大模型的發展。

以上現象未必適合表述成這問題發佈時“成為一個回音壁”的說法。當然，這是不同的人對詞語的不同用法，對討論這個問題來說並不重要。

2023 年初，一些研究人員以預印本報告，讓人工智慧使用主要由人工智慧生成的文本進行訓練，會在反覆運算數次後引起若干內容丟失、文本品質下降，對圖像生成人工智慧進行類似操作會引起清晰度下降等劣化，乃至讓圖像完全變形^[1]。他們認為這“模型崩潰”現象是普遍存在的。這在歐美網路上暫時引發關於“垃圾進、垃圾出”的熱議。有興趣的讀者可以搜索“遞歸的詛咒（The Curse of Recursion）”看看當時的討論。

顯然，問題不在於內容是人做出來的還是機器生成的，問題是內容的準確性、多樣性、可改進性。人做出來的一些東西同樣不適合用於訓練大模型。

大模型的訓練者可以對數據進行人工標註和篩選，濾掉低質、重複、錯誤的資訊。他們可以從不同語言、文化、專業領域定期獲取新鮮數據，避免依賴單一來源。他們可以控制在每一代新模型的訓練數據中來自上一代模型的數據所佔的比例。2024 年，一些研究人員用不太成熟的文章報告說，積累數據而不是用機器生成的數據逐步替換掉舊的訓練數據，能夠在他們估計的範圍內避免“模型崩潰”現象的發生^[2]。

將來，大模型輸出的內容質量足夠高的時候，以上質量問題大概會自動退出歷史舞臺。

汽車上有些什麼鮮為人知卻對行車安全有一定影響的設計？

汽車上有些什麼鮮為人知卻對行車安全有一定影響的設計？

2025-03-25 22:47:39

小米會不會出10萬左右的走量車型，什麼時候出？

小米會不會出10萬左右的走量車型，什麼時候出？

2025-03-25 22:53:05

如果你已經做了 5 年以上前端開發，你覺得自己目前的核心競爭力在哪？

如果你已經做了 5 年以上前端開發，你覺得自己目前的核心競爭力在哪？

2025-03-25 23:01:17

比亞迪的DM-i 5.0混動系統為什麼沒有採用行星齒輪？

比亞迪的DM-i 5.0混動系統為什麼沒有採用行星齒輪？

2025-03-25 23:01:48

我一直想不明白，日系車為什麼就走下坡路了呢？

我一直想不明白，日系車為什麼就走下坡路了呢？

2025-03-25 23:09:52

有哪些省錢思路其實很實用，結果富人不需要，窮人刷不到？

有哪些省錢思路其實很實用，結果富人不需要，窮人刷不到？

2025-03-25 23:19:37

一個電機就有800匹，柯尼賽格是怎麼做到的？

一個電機就有800匹，柯尼賽格是怎麼做到的？

2025-03-25 23:20:35

有哪些看起來熱量很高，實則熱量並不高的食物？

有哪些看起來熱量很高，實則熱量並不高的食物？

2025-03-25 23:20:37

能大致講一下 DeepSeek 的原理嗎？

能大致講一下 DeepSeek 的原理嗎？

2025-03-25 23:24:58

為什麼deepseekR1之後的大模型都開始做思維鏈？

為什麼deepseekR1之後的大模型都開始做思維鏈？

2025-03-25 23:29:12

阿裡發佈開源推理模型 QwQ-32B，支援消費級顯卡本地部署，有哪些技術亮點？

阿裡發佈開源推理模型 QwQ-32B，支援消費級顯卡本地部署，有哪些技術亮點？

2025-03-25 23:32:43

英雄最終往往選擇隱退江湖，武俠文學作品中哪個角色的隱退方式你覺得最完美？

英雄最終往往選擇隱退江湖，武俠文學作品中哪個角色的隱退方式你覺得最完美？

2025-03-25 23:33:25

為什麼很多公司因為「降本增效」而倒閉了？

為什麼很多公司因為「降本增效」而倒閉了？

2025-03-25 23:38:08

如何評價OpenManus這個開源專案？

如何評價OpenManus這個開源專案？

2025-03-25 23:39:43

雷軍建議優化新能源汽車號牌設計，稱綠色號牌制約了汽車產品的設計效果，怎麼看這一建議？你會設計成什麼樣？

雷軍建議優化新能源汽車號牌設計，稱綠色號牌制約了汽車產品的設計效果，怎麼看這一建議？你會設計成什麼樣？

2025-03-25 23:39:45

晚上睡不著白天睡不醒，是什麼「偷走」了我們的夜晚？

晚上睡不著白天睡不醒，是什麼「偷走」了我們的夜晚？

2025-03-25 23:48:30

為什麼C語言從不被淘汰？那些Rust/Go吹噓的安全特性，C語言真的做不到嗎?

為什麼C語言從不被淘汰？那些Rust/Go吹噓的安全特性，C語言真的做不到嗎?

2025-03-26 00:11:39

電動汽車的車主，有多少比例知道電池只有約10年壽命？

電動汽車的車主，有多少比例知道電池只有約10年壽命？

2025-03-26 00:13:21

北魏分裂后的皇室及宗室在東魏+北齊和西魏+北周的待遇哪個最差？

北魏分裂后的皇室及宗室在東魏+北齊和西魏+北周的待遇哪個最差？

2025-03-26 00:18:19

金庸先生為何寫完《鹿鼎記》之後就停止了武俠小說的創作?

金庸先生為何寫完《鹿鼎記》之後就停止了武俠小說的創作?

2025-03-26 00:18:20

北周比北齊面積大了好幾倍，為什麼北周大臣說北齊佔了一半天下？

北周比北齊面積大了好幾倍，為什麼北周大臣說北齊佔了一半天下？

2025-03-26 00:18:22

為什麼伊爾汗國沒有攻打俾路支地方作為自己的臣屬?

為什麼伊爾汗國沒有攻打俾路支地方作為自己的臣屬?

2025-03-26 00:19:56

為什麼同樣是初到榮國府，幼年喪母的黛玉只能睡碧紗櫥，而即將嫁人的薛寶琴卻直接跟賈母一起睡了？

為什麼同樣是初到榮國府，幼年喪母的黛玉只能睡碧紗櫥，而即將嫁人的薛寶琴卻直接跟賈母一起睡了？

2025-03-26 00:22:30

城市的哪個角落，讓你覺得既有歷史的厚重氣息，又有春天的生命活力？可以分享你拍下的這個瞬間嗎？

城市的哪個角落，讓你覺得既有歷史的厚重氣息，又有春天的生命活力？可以分享你拍下的這個瞬間嗎？

2025-03-26 00:24:16