我看有人在吹 GPT-5,我咋覺得恰恰相反。我看完之後的感覺是,這一切都在為 GPT-5 的訓練遇阻和發佈延後做找補。簡單來說,推理模型和非推理模型的融合遇到了困難,但推理模型本身還沒有遇到瓶頸。
我們首先要理解 OpenAI 的「計劃有變」是怎麼個變法,比較重要的資訊就在 Sam Altman 前後發的兩條推特里。
之前的計劃(2月13日)是[1]:
簡單來說就是
看上去似乎比較混亂。實際上 OpenAI 的模型現在就是兩條路線:
而現在 OpenAI 的計劃是[2]:
首先是大家最關心的 GPT-5,出現了自相矛盾的描述。一方面說 GPT-5 會效果更好,另一方面又說整合所有事情比預想的更難。
因為最初 GPT-5 的主要目的是整合推理和非推理兩條路線的模型,以及各種模態和工具能力。現在說「整合遇到困難」,實際上就是承認 GPT-5 的訓練不及預期。
考慮到大模型行業現在你追我趕的反覆運算速度,如果真的延期三個月,別家就會反覆運算出小版本,所以才會補償性地承諾出「GPT-5 會效果更好」。
同樣,由於 GPT-5 短期內拿不出來,或者說 GPT 系列已經遇到了顯著的瓶頸(否則去年也不會去折騰推理模型),所以 OpenAI 發現自己模型發佈之間的空檔期過久(GPT-4.5 已經推出了,雖然成本很高),所以他們需要別的東西來填補中間的空擋,給使用者一種他們依然技術領先的感覺。
於是之前不打算發佈的 o3 被迫拿了出來,又畫了一個 o4-mini 的餅。
o3 的成本目測會持平/高於 o1 pro。換句話說,o3 也許會像 GPT-4.5 一樣,成本高到失去實際上的可用性,因為大家都用不起。
一個例證在於,ARC-AGI 去除了 o3-high 的分數,他們將最初 o3-low 的估算從每任務 20 美元提高到每任務 200 美元。推測 o3-high 從每任務 3,000 美元提高到每任務 30,000 美元,由於成本突破了每任務 10,000 美元的限制,o3-high 不再被包括在內[3]。
至於 o4-mini,往好處想,這說明推理模型暫時還沒有到上限,依然能有能力突破(至少是測評分數的提升)。
現在 OpenRouter 上出現了一個神秘的匿名模型 Quasar Alpha[4](目前免費可用),OpenRouter 官方稱:這是一個提供給社區以收集反饋的“披露受限”模型。它是一個功能強大、用途廣泛的模型,支援包括代碼生成在內的長上下文任務。該模型的所有提示詞和生成內容都會被提供方以及OpenRouter記錄。
實際測試的話,Quasar Alpha 會承認自己來自 OpenAI:
而且 Quasar Alpha 有另外幾個印象非常深刻的優點,第一是快,第二是上下文長,第三是性能似乎還不錯。
實際測試中,Quasar Alpha 往往能提供超過 100 tokens/s 的速度,數倍高於其他模型(考慮到速度往往和模型尺寸、價格強相關,可以推斷 Quasar Alpha 也許模型不大,且未來定價不高);按照 OpenRouter 的標註,Quasar Alpha 支援 1M tokens 上下文;一些網友給出的測評分數中,Quasar Alpha 超過了 o3-mini 和 Claude 3.5.
綜合以上資訊,很多人都在猜 Quasar Alpha 會不會就是 o4-mini,畢竟 OpenAI 目前已經預告的短期之內可能會發佈的新模型就剩下 o4-mini 了。
但我個人倒是感覺不太可能,因為 Quasar Alpha 顯然不是一個推理模型,更有可能是 GPT 系列。而且不論怎麼說,這些和 GPT-5 都沒關係,都是在為 GPT-5 的延期找補。
以上。