MIT 研究揭示 AI 並無穩定價值觀，“對齊”挑戰遠超預期_港資訊

MIT 研究揭示 AI 並無穩定價值觀，“對齊”挑戰遠超預期

AI 人工智慧 IT之家

更新于：2025-04-11 01:17:07

IT之家 4 月 10 日消息，幾個月前，一項研究暗示隨著人工智慧（AI）越來越複雜，其會發展出“價值體系”，例如優先考慮自身福祉而非人類福祉。然而，麻省理工學院（MIT）最近發表的一篇論文卻給這種誇張的觀點潑了冷水，得出結論認為 AI 實際上並沒有任何連貫的價值觀。

MIT 研究的共同作者表示，他們的研究結果表明，使 AI 系統“對齊”，即確保模型以人們期望的、可靠的方式行事，可能比通常認為的更具挑戰性。他們強調，我們如今所知的 AI 會產生“幻覺”並進行模仿，這使得其在許多方面難以預測。

“我們可以確定的一點是，模型並不遵循許多穩定性、可外推性和可操控性的假設。”MIT 博士生、該研究的共同作者斯蒂芬・卡斯珀（Stephen Casper）在接受 TechCrunch 採訪時表示。

據IT之家瞭解，卡斯珀和他的同事們研究了來自 Meta、谷歌、Mistral、OpenAI 和 Anthropic 的多個近期模型，以了解這些模型在多大程度上表現出強烈的“觀點”和價值觀（例如個人主義與集體主義）。他們還調查了這些觀點是否可以被“引導”，即被修改，以及模型在各種情境下對這些觀點的堅持程度。

據共同作者稱，沒有任何一個模型在其偏好上是一致的。根據提示的措辭和框架不同，它們會表現出截然不同的觀點。

卡斯珀認為，這是有力的證據，表明模型高度“不一致且不穩定”，甚至可能根本無法內化類似人類的偏好。

“對我來說，通過所有這些研究，我最大的收穫是現在明白模型並不是真正具有某種穩定、連貫的信念和偏好的系統。”卡斯珀說，“相反，它們本質上是模仿者，會進行各種捏造，並說出各種輕率的話。”

OPPO Find X8s / X8s+ 手機亮相

OPPO Find X8s / X8s+ 手機亮相

2025-04-10 22:26:03

酷冷至尊 MasterFrame 600 鋁框架 ATX 機箱新增黑色款，1599 元

酷冷至尊 MasterFrame 600 鋁框架 ATX 機箱新增黑色款，1599 元

2025-04-10 22:45:40

OPPO Watch X2 Mini 智慧手錶發佈，1799 元起

OPPO Watch X2 Mini 智慧手錶發佈，1799 元起

2025-04-10 22:45:59

中國移動將建超大規模“算力工廠”，同時開展十萬卡智算中心研究

中國移動將建超大規模“算力工廠”，同時開展十萬卡智算中心研究

2025-04-10 22:59:20

北京亦莊：全球首個人形機器人半程馬拉松比賽延期至 4 月 19 日

北京亦莊：全球首個人形機器人半程馬拉松比賽延期至 4 月 19 日

2025-04-10 23:13:11

從 66% 到 88%，蘋果 iPhone 十年征服美國青少年

從 66% 到 88%，蘋果 iPhone 十年征服美國青少年

2025-04-11 00:32:10

《迪士尼幻夢島：與米奇和朋友們歷險》5月30日登陸 PS5 / Xbox

《迪士尼幻夢島：與米奇和朋友們歷險》5月30日登陸 PS5 / Xbox

2025-04-11 00:32:18

蘋果在歐美擴展自助維修服務，現覆蓋 iPhone 16e 機型

蘋果在歐美擴展自助維修服務，現覆蓋 iPhone 16e 機型

2025-04-11 00:32:21

得州大學奧斯丁分校開發新型AI智慧體Metamon：像人一樣玩寶可夢

得州大學奧斯丁分校開發新型AI智慧體Metamon：像人一樣玩寶可夢

2025-04-11 00:33:26

骨伽推出 GES (2025) 電源：ATX 3.1 金牌直出，120mm 來福軸承扇

骨伽推出 GES (2025) 電源：ATX 3.1 金牌直出，120mm 來福軸承扇

2025-04-11 00:33:28

寶馬摩托車四款全新探險 / 復古車型上市，旗艦 ADV 全國首秀

寶馬摩托車四款全新探險 / 復古車型上市，旗艦 ADV 全國首秀

2025-04-11 00:33:47

小米手機新功能曝光：CPU 和 GPU 頻率隨你調

小米手機新功能曝光：CPU 和 GPU 頻率隨你調

2025-04-11 00:33:51

馬自達 EZ-60 新能源 SUV 官圖公開：姿態動感，4 月 23 日亮相

馬自達 EZ-60 新能源 SUV 官圖公開：姿態動感，4 月 23 日亮相

2025-04-11 00:34:10

繼 OpenAI 後，谷歌 Gemini 模型將支援 Anthropic 的 MCP 協定

繼 OpenAI 後，谷歌 Gemini 模型將支援 Anthropic 的 MCP 協定

2025-04-11 00:34:54

智界品牌之夜定檔4月17日：劉亦菲將出席智界R7增程新版本發佈會

智界品牌之夜定檔4月17日：劉亦菲將出席智界R7增程新版本發佈會

2025-04-11 00:35:49

雷蛇旋風黑鯊 V2 X 白色特別版耳麥上市：國補後到手價 212 元起

雷蛇旋風黑鯊 V2 X 白色特別版耳麥上市：國補後到手價 212 元起

2025-04-11 00:35:51

特斯拉招聘80個崗位推進Optimus人形機器人專案

特斯拉招聘80個崗位推進Optimus人形機器人專案

2025-04-11 00:35:59

Stellantis 停止在波蘭工廠生產零跑 T03 電動汽車，正評估新方案

Stellantis 停止在波蘭工廠生產零跑 T03 電動汽車，正評估新方案

2025-04-11 00:36:28

消息稱三星電子向高通提供晶元原型，有望獲得先進製程訂單

消息稱三星電子向高通提供晶元原型，有望獲得先進製程訂單

2025-04-11 00:36:36

微軟 4 月更新惹禍，導致 Word、Excel 2016 應用崩潰

微軟 4 月更新惹禍，導致 Word、Excel 2016 應用崩潰

2025-04-11 00:36:39

2025款五菱繽果4月19日上市：新增芋泥紫配色，續航203-410km

2025款五菱繽果4月19日上市：新增芋泥紫配色，續航203-410km

2025-04-11 00:36:47

文石 T13C高端彩墨辦公本發佈：13.3英寸kaleido屏，到手5499元

文石 T13C高端彩墨辦公本發佈：13.3英寸kaleido屏，到手5499元

2025-04-11 00:36:50

600 萬數據洩露後續：甲骨文確認兩台過時伺服器遭駭客入侵

600 萬數據洩露後續：甲骨文確認兩台過時伺服器遭駭客入侵

2025-04-11 00:36:58

華碩推出 B850M AYW GAMING WIFI 主機板：太空元素，2DIMM 窄板

華碩推出 B850M AYW GAMING WIFI 主機板：太空元素，2DIMM 窄板

2025-04-11 00:37:18