IT之家 4 月 10 日消息,數月前的一項研究在網上引起熱議,其暗示 AI 會逐漸形成類似於“價值體系”的東西,能夠使 AI 在某些情況下會把自己的利益置於人類之上。然而,麻省理工學院的最新研究對此提出了反駁,得出結論認為,AI 並不具備任何連貫的價值觀。
據外媒 TechCrunch 今日報導,研究的合著者表示,要“對齊”AI 系統,即“確保其行為符合預期且穩定可靠”可能比原先想法更加困難。合著者強調,當前的 AI 技術存在幻覺,並且具備模仿能力,這使得其行為變得不可預測。
麻省理工學院的博士生、研究合著者斯蒂芬・卡斯珀在表示:“我們可以肯定,模型並不遵循許多關於穩定性、外推性和可操作性的假設。雖然指出一個模型在某些條件下會表現出某些偏好是合理的,但當我們基於狹窄的實驗結果來做出廣泛的推斷時,問題才真正出現。”
卡斯珀和他的團隊對 Meta、谷歌、Mistral、OpenAI 和 Anthropic 等公司的多個模型進行了研究,考察它們是否展現出明確的“觀點”或“價值觀”(比如個人主義和集體主義的對立)。他們還調查了這些觀點是否可以被“引導”或修改,並分析了模型在不同場景下對這些觀點的堅持程度。
IT之家從報導中獲悉,合著者們表示,這些模型在偏好上的表現極其不一致。根據輸入提示的措辭和框架,模型的反應可能會發生很大的變化。
卡斯珀認為,這為模型的“不一致性和不穩定性”提供了有力證據,並且可能表明這些模型本質上無法像人類一樣內化和堅持價值觀。
卡斯珀補充道:“對我來說,做這項研究的最大收穫是,我現在意識到這些模型根本不是擁有穩定、一致信念和偏好的系統。相反,它們本質上只是模仿者,進行各種編造,發表一些無關緊要的言論。”