總部位於加利福尼亞州帕洛阿爾托的 AI 初創公司 Reve AI,Inc. 正式發佈了 Reve Image 1.0,這是一款在提示詞遵循度、美學表現和文字渲染方面表現出色的文本到圖像生成模型。這是該公司的首個產品發佈,未來還將推出更多工具。
目前用戶可以在 preview.reve.art 免費體驗 Reve Image,無需複雜的提示工程技巧即可通過文本描述生成圖像。
公司尚未宣佈 API 訪問或長期定價計劃,也未明確該模型是否會保持專有或開源,以及可能採用什麼許可證。
AI 圖像生成的創新方法
Reve Image 通過更深入理解使用者意圖來實現差異化。它不僅支援從文本生成圖像,還允許使用者通過簡單的語言命令修改現有圖像。
修改範例包括更改顏色、調整文字和改變視角。該模型還支持上傳參考圖像,使用戶能夠創建匹配特定風格或靈感的視覺效果。
該模型最突出的特點之一是其強大的文字渲染能力,解決了 AI 生成圖像中的一個常見挑戰——這使其能夠直接與 Ideogram 等專注於文字的圖像模型競爭,這對於設計標誌和品牌的用戶來說更有價值。
此外,早期用戶測試表明,Reve Image 在處理多角色提示方面比以往的模型更有效。
已登頂第三方基準測試排行榜
Reve Image 已經通過第三方 AI 模型測試服務 Artificial Analysis 的評估。
在 Artificial Analysis 的圖像競技場中,該平臺基於用戶評價和其他量化指標對各種圖像生成模型進行排名,Reve 目前在"圖像生成品質"方面位居第一,超越了 Midjourney v6.1、Google 的 Imagen 3、Recraft V3 和 Black Forest Lab 的 FLUX.1.1 [pro] 等競爭對手。
基準測試組特彆強調了 Reve Image 在圖像中生成清晰可讀文字的能力,這歷來是 AI 模型的一個難點。
在正式發佈之前,Reve Image 在社交媒體上以代號"Halfmoon"為人所知,在 AI 社區引發了廣泛的猜測和期待。
融合人類和 AI 的理解,創造更好、更高品質、更逼真的圖像
Reve 將自己描述為"一個由充滿激情的研究者、開發者、設計師和講故事者組成的小團隊,懷揣著遠大的想法"。公司致力於開發創意工具,提升使用者與 AI 視覺交互的體驗。
Reve 的聯合創始人兼研究科學家 Michael Gharbi 在 X 平臺上分享了公司的長期願景,強調其目標是構建能夠理解創意意圖的 AI 模型,而不僅僅是生成視覺上合理的輸出。
"捕捉創意意圖需要先進的自然語言理解和其他交互能力,"Gharbi 說。"我們的願景是建立一種新的語義中間表示,使人類和機器都能理解、推理和操作。"
團隊其他成員,包括工程師 Hunter Loftis 和研究員 Taesung Park,也強調了為 AI 生成的視覺效果注入邏輯的重要性。
Park 將當前的文字到圖像模型比作早期的大語言模型 (LLMs),指出它們經常產生視覺上吸引人但邏輯不一致的結果。
早期使用者報告顯示前景與局限
在 Reddit 的 AI 討論區 r/singularity 上,早期用戶反饋大多是積極的,許多人讚揚該模型在提示詞遵循度、高品質文字渲染和快速生成速度方面的表現。
一些用戶報告在生成多角色場景和複雜環境方面取得了成功,這些領域是以前的模型常常難以處理的。
然而,仍然存在一些挑戰。使用者注意到 Reve Image:
在處理某些複雜物件時存在困難 (例如透明材質,如裝滿酒的酒杯)。
難以識別特定虛構角色 (例如,用戶嘗試生成視頻遊戲角色時,模型產生的結果較為泛化)。
在多物體構圖中偶爾會出現細節位置錯誤。
儘管存在這些障礙,Reve 團隊一直在積極與用戶社區互動,並將反饋納入持續改進中。
在我撰寫本文並創作頭圖時的簡短實踐中,我發現 Reve 相當直觀易用,具有令人印象深刻的視覺效果和提示詞遵循度。像許多 AI 圖像生成器一樣,它有一個提示詞輸入文字框,但與 Midjourney 和 Ideogram 不同,Reve 將其放在網站底部,讓生成的內容佔據上方大部分空間。
此外,提示詞輸入文字框下方還有四個按鈕,用於對圖像生成過程進行進一步微調,包括寬高比調節器 (標準尺寸在 16:9 (寬屏橫向) 和 9:16 (豎屏,如智能手機) 之間)...
還有一個按鈕選擇器用於設置每個提示詞要生成的圖像數量 (1、2、4、8),一個用於開關提示詞文本增強的按鈕 (默認開啟,這意味著 Reve 會根據它認為你想在圖像中看到的內容自動編輯你輸入的文本,添加比你最初包含的更多豐富細節和視覺語言),以及一個"種子"按鈕,用於選擇是否使用之前生成圖像的特定數位串來指導後續生成。
與 Midjourney 相比,它的設置更少,也沒有包含任何基於視覺的編輯器,但基本功能都具備,對於大多數普通 AI 圖像用戶來說應該足夠入門了。
我的簡短測試還顯示,它在將可讀文字渲染到圖像中的表現上與 Ideogram 不相上下或更好 (遠超 Midjourney),在渲染可識別的公眾人物方面也與 Grok 不相上下或更優 (而 Midjourney 和許多其他圖像產生器都禁止這樣做)。
Reve Image 的未來發展
雖然該模型目前僅通過公司網站提供,但人們對 API 訪問或潛在的開源選項期待日增。
用戶還表達了對自定義模型訓練、動畫控制工具和與創意軟體集成等附加功能的興趣。
目前,Reve Image 在 preview.reve.art 上保持免費訪問,允許用戶親自探索其功能。隨著 Reve 不斷完善其 AI 模型並擴展產品線,該公司正在將自己定位為 AI 驅動的創意工具領域的重要參與者。