Midjourney 以其領先的 AI 圖像產生器而聞名——根據第三方統計,其 Discord 頻道擁有近 2000 萬使用者,加上網站用戶數量可能更多——但其野心正在開始擴張。
繼 2024 年夏末宣佈正在開發自己的計算和 AI 硬體後,本周該公司與紐約大學 (NYU) 的機器學習專家合作發佈了一篇新的研究論文,探討如何訓練基於文本的大語言模型(如 Meta 的開源 Llama 和 Mistral 的同名源模型)以實現更具創造性的寫作。
這項合作發表在 AI 代碼社區 Hugging Face 上的研究論文中,介紹了兩種新技術——多樣化直接偏好優化 (DDPO) 和多樣化比值偏好優化 (DORPO),旨在擴大可能輸出的範圍,同時保持連貫性和可讀性。
對於一家以擴散 AI 圖像生成模型而聞名的公司來說,Midjourney 在文本類大語言模型創造力方面的新思路表明,它並不局限於視覺領域,而且一張圖片可能並不真的勝過千言萬語。
這家小型自主創業公司會推出 Midjourney 原生大語言模型或現有大語言模型的微調版本嗎?我聯繫了 Midjourney 創始人 David Holz,但尚未收到回復。
無論是否會推出 Midjourney 自己的大語言模型,其新研究的影響已超越學術範疇,可能會推動企業 AI 團隊、產品開發人員和內容創作者在改進 AI 生成文本方面掀起新一輪的大語言模型訓練浪潮。
這也表明,儘管 AI 模型供應商最近對新的多模態和推理語言模型表現出濃厚興趣並加大投資,但在經典的基於 Transformer 的文本大語言模型方面,在認知和性能上仍有很大的提升空間。
問題:AI 生成的寫作趨向於同質化輸出
在事實型問答或程式設計輔助等領域,人們期望大語言模型生成單一的最佳回答。
然而,創意寫作本質上是開放式的,這意味著對單個提示可以有多種有效的回應。
以 Midjourney 研究人員提供的例子來說,給出"寫一個關於月球上的狗的故事"這樣的提示,大語言模型可以探索多個不同的路徑,比如:
一隻在月球任務后被意外遺留的宇航員寵物狗。
一隻發現自己身處未來犬類太空殖民地的狗。
一隻與外星物種成為朋友的滯留狗。
儘管存在這些可能性,但經過指令調優的大語言模型往往會收斂到相似的故事情節和主題。這種現象發生是因為:
后訓練技術優先考慮使用者偏好而非原創性,強化了流行但重複的回應。
指令調優往往會平滑變化,使模型傾向於"安全"的回應而非獨特的回應。
現有的促進多樣性的技術(如溫度調節)僅在推理時起作用,而不是融入模型的學習過程中。
這導致故事創作同質化,AI 生成的創意寫作顯得重複,缺乏驚喜或深度。
解決方案:修改後訓練方法以優先考慮多樣性
為克服這些限制,研究人員引入了 DDPO 和 DORPO,這是現有偏好優化方法的兩個擴展。這些方法的核心創新在於使用偏差——衡量一個回應與其他回應的差異程度——來指導訓練。
工作原理如下:
在訓練過程中,模型會收到一個寫作提示和多個可能的回應。
對同一提示的每個回應都會與其他回應進行比較,並計算偏差分數。
罕見但高質量的回應在訓練中被賦予更大的權重,鼓勵模型從多樣化的例子中學習。
通過將偏差納入直接偏好優化 (DPO) 和比值偏好優化 (ORPO),模型學會產生高品質但更加多樣化的回應。
這種方法確保 AI 生成的故事不會收斂到單一可預測的結構,而是探索更廣泛的角色、場景和主題——就像人類作家可能做的那樣。
Midjourney 的研究人員如何實現這一目標
該研究涉及使用來自 Reddit 社區 r/writingPrompts(用戶發佈提示並以短故事回應的社區)的數據集訓練大語言模型進行創意寫作任務。
研究人員使用了兩個基礎模型進行訓練:
Meta 的 Llama-3.1-8B (Llama 3 系列的 80 億參數模型)。
Mistral-7B-v0.3 (Mistral AI 的 70 億參數模型)。
然後,他們讓這些模型經歷以下過程:
監督式微調 (SFT): 首先使用 LoRA (低秩適應) 對模型進行微調,以高效調整參數。
偏好優化: DPO 和 ORPO 作為基準——這些標準方法基於使用者偏好信號來改進回應品質。 隨後應用 DDPO 和 DORPO,引入基於偏差的權重以鼓勵更獨特的回應。
評估: 自動評估:使用基於嵌入的技術測量語義和風格多樣性。 人工評估:評判員評估輸出與 GPT-4 和 Claude 3.5 相比是否更具多樣性和吸引力。
關鍵訓練發現:
DDPO 在輸出多樣性方面顯著優於標準 DPO,同時保持品質。
使用 DDPO 的 Llama-3.1-8B 在品質和多樣性方面達到最佳平衡,產生的回應比 GPT-4 更加多樣化,同時保持連貫性。
當數據集規模減小時,DDPO 模型仍然保持多樣性,儘管它們需要一定數量的多樣化訓練樣本才能完全發揮效果。
企業啟示:對於使用 AI 進行創意回應的領域意味著什麼——如市場行銷文案、企業故事敘述和影視/遊戲劇本創作?
對於管理大語言模型部署的 AI 團隊來說,在保持質量的同時提高輸出多樣性是一個關鍵挑戰。這些發現對依賴 AI 生成內容的組織有重要影響,適用於以下應用:
對話式 AI 和聊天機器人 (確保回應多樣化和引人入勝)。
內容行銷和故事敘述工具 (防止 AI 生成的文案重複)。
遊戲開發和敘事設計 (創建多樣化的對話和分支故事情節)。
對於負責在企業環境中微調和部署模型的專業人員,這項研究提供:
一種提升創造力而不犧牲品質的新型大語言模型后訓練方法。
推理時多樣性調優(如溫度調節)的實用替代方案,通過將多樣性整合到學習過程中。
開發更具吸引力的 AI 應用的潛力,從 AI 輔助寫作工具到能夠動態調整回應的虛擬助手。
對於處理 AI 模型編排和自動化的人員,這項研究強調:
在訓練階段調優模型的重要性,減少部署時的後處理調整需求。
將自適應故事敘述引入 AI 驅動的應用的方法,確保變化性的同時保持內容品質。
使大語言模型輸出更接近人類的方法,這對需要互動式故事敘述、客戶互動或動態內容創作的應用至關重要。
AI 生成創意項目的未來一片光明
DDPO 和 DORPO 的成功表明,使用以多樣性為目標的訓練可以顯著改進大語言模型的創意寫作。一些想法包括:
將基於偏差的學習整合到企業 AI 模型中,以增強面向客戶的應用中的回應多樣性。
探索這些方法如何應用於其他生成任務,如 AI 驅動的詩歌、劇本創作或遊戲故事敘述。
開發混合訓練方法,平衡 AI 助手的多樣性和指令遵循能力。
對於有興趣應用這些技術的人來說,研究人員計劃在 GitHub 倉庫中公開他們的代碼。
無論是為商業應用微調大語言模型還是優化大規模 AI 編排,這項研究都為模型如何變得更加動態、引人入勝和響應創意任務提供了可行的見解。
通過採用這些技術,AI 團隊可以超越殭化、程式化的輸出——構建不僅智慧而且真正富有想像力的 AI 系統。