本文刊載於《瞭望東方週刊》(2025年第7期,總第930期),原題為《測AI智商意義何在?》。
文丨《瞭望東方週刊》記者陳融雪
給AI測智商的嘗試,本質上是一場人類認知框架的自我審視。
AI能有多聰明?2024年終,OpenAI宣布ChatGPT-o3在ARC-AGI(通用人工智慧抽象和推理語料庫)基準測試中取得157分,與愛因斯坦、霍金等人類頂尖智力標杆的推定智商比肩,這一消息迅速引爆輿論。
北京時間2025年2月18日,埃隆·馬斯克旗下人工智慧公司xAI發佈其最新人工智慧模型Grok 3,稱它是“地球上最聰明的人工智慧”。
然而,矽谷的慶功香檳尚未飲盡,另一組實驗數據卻在2025年1月撕開認知裂縫:2025年1月,非營利組織CAIS公佈“人類終極考試”(HLE)測試結果,所有前沿AI在3000道跨學科難題前集體折戟,最高正確率不足10%。
給AI測智商的嘗試,本質上是一場人類認知框架的自我審視。面壁智能聯合創始人、首席科學家劉知遠接受《瞭望東方週刊》採訪時表示,人類應以更開放的心態,重新理解智能的本質——它既是解決問題的能力,也是提出問題的勇氣,更是連接不同生命形式的橋樑。
在他看來,AI的智力覺醒,不在於能否在既有框架內超越人類,而在於能否打破“解題者”的宿命,像原始人發現火種般創造出全新的世界。
AI智力有幾歲?
從結繩記事到神經網路,人類經歷了漫長時間將智慧外化;而今,我們正在見證智慧脫離碳基載體后的第一次呼吸。
“和16歲孩子相比,其語言表達能力已達到160,語言推理歸納能力達145,這個水準在人類中不說絕頂聰明,也是萬里挑一。”2025年2月,中國科學院心理研究所超常兒童研究中心負責人張興利用韋氏兒童智力量表結合瑞文測試,給ChatGPT4、DeepSeek、kimi和豆包等當紅人工智慧大語言模型測智商后謹慎表示:“我不能客觀地給它們打分(評估綜合智商)。我能肯定的是,它們的學習能力相當驚人。”
以ChatGPT 4為例,張興利團隊讓它做瑞文測試圖形推理題時僅僅練習了兩次,就從“什麼都不會”進步到“做對12道題”。
“一個智商為100的5歲半孩子,60道題里差不多能做對16道題。但是,大語言模型應該算幾歲?”張興利告訴《瞭望東方週刊》,所謂智商,指個體的標準化智力測試結果在同齡人中的相對水準。一般而言,智商平均值設為100,呈正態分佈,如果說一個人智商為130,意味著他的智力水準高過 97.7%的同齡人。
美國臨床心理學家埃卡·羅瓦寧(Eka Roivainen)把人工智慧大語言模型當成年人測了一下。在他看來,“ChatGPT幾乎是一個完美的考生,它具有值得稱讚的考試態度,不會表現出測試焦慮、注意力不集中或缺乏努力的情況”。
2023年3月21日,他用韋氏成人智力量表第三版給ChatGPT測智商,結果顯示,ChatGPT的口頭智商為155,高於構成美國標準化樣本2450人的99.9%的考生。換言之,即使按成年人的標準看,ChatGPT的口頭智商已達到美國樣本人群的前1‰。
AI加速突破極限
人類一直在尋找一種適合量化AI聰明程度的評估體系。1950年,英國數學家艾倫·麥席森·圖靈提出通過提問和人類裁判的辦法,來判斷一台電腦是否具有同人相稱的智力(以下簡稱“圖靈測試”)。但圖靈測試過於依賴語言交流的能力,忽略了智慧的其他維度。
圖靈
近年來,基準測試成為AI能力評估的新趨勢。GSM8K(基於小學數學題數據集的測試)、HumanEval(用於評估大模型程式設計性能的測試)和MMLU(大規模多任務語言理解測試),不同的測試專注於不同的領域,但它們依舊存在局限性。比如,有些模型可能在訓練中已經對測試數據集進行了“預習”,最後的高分並不代表真實的能力。那麼,被數據“污染”的測試淪為套路,就失去了參考價值。
為破解傳統基準測試的困境,非營利組織CAIS(人工智慧安全中心)與數據巨頭Scale AI聯合推出名為“人類終極考試”的全新基準測試,希望用複雜的題目“拷問”AI的極限。
據悉,“人類終極考試”有出題專家近千名,來自全球50個國家的500多個機構,涵蓋數學、人文、自然科學等多個領域。專家們提交了超7萬個問題,經嚴格篩選後保留下3000個高難度問題。
2025年1月公佈的測試結果顯示,當時所有的前沿大模型(如GPT-4o、Claude 3.5 Sonnet、Gemini系列等)準確率均未超過10%,且普遍存在“過度自信”現象。此外,大模型還存在跨學科整合能力不足,難以同時處理文字、圖像和專業術語,回答“古希臘神話中英雄伊阿宋的曾祖父是誰”這類問題很吃力。
但是,AI攻克基準測試的速度將遠超預期。
比如,在評估高級數學推理和創造性解題能力的MATH測試中,前沿大模型的解題正確率從10%到90%僅用了3年。CAIS預測,到2025年底,AI在“人類終極考試”上可能突破50%準確率。
“大模型的能力密度隨時間呈指數級增長,2023年以來能力密度約每3.3個月(約100天)翻一倍——這是我們提出的大模型密度定律。”劉知遠表示,作為AI 時代的三大核心引擎,電力、算力和智力的能力均在加速倍增,我們即將迎來一個重要且意義深遠的智慧革命時代。
測量悖論
當前,各路專家們給AI測試智商主要有三類路徑。第一類是沿用人類智力量表,如韋氏智力量表、門薩題庫、瑞文測試等,側重邏輯推理與模式識別;第二類是專業基準測試,如大規模多任務語言理解測試、“人類終極考試”,強調跨領域知識整合;第三類是行為模擬評估,通過圖靈測試變體考察交互能力。
然而,這些方法均難免陷入“測量悖論”。
“這些主流評價標準是用人類能力維度對AI進行評價,盡可能類比對標人類在語義理解、視覺識別、語言表達、通用能力等方面的智慧水平標準。但是,鑒於人類智慧的複雜性,對人類能力全然建模是不可能的。”劉知遠解釋道,人類大腦與AI之間有著顯著差異——人類大腦擁有的神經元約為860億個,其複雜的突觸連接數達100萬億。相對而言,即便是擁有1.76萬億參數的GPT-4,其神經網路的複雜程度亦遠不及人類大腦。
1998年3月20日留資, 貝爾實驗室陳列的含有256個神經元的神經網路晶片(右)和1958年開發的第一個用於人工智慧的神經網路(毛眾役/攝)
張興利表示,智商測試誕生於1905年,法國心理學家比奈(Binet.Alfred)和助手西蒙(Theodore Simon)為了把特殊需求兒童和一般兒童區分開來,制定了比奈—西蒙智力量表。120年來,面對不同地域和不同時代等文化差異,學界不斷修訂和研發出多種測試工具,力圖對個體智商更客觀地開展評估。
給AI測智商,靠譜嗎?目前,已有多名專家對此表示質疑。
牛津大學研究技術與監管的研究員桑德拉·瓦赫特 (Sandra Wachter) 在接受 TechCrunch(一家美國科技類博客媒體)採訪時表示,用人類衡量標準來描述人工智慧的能力或進步非常誘人,但這就好像是在比較蘋果和橘子。汽車比人類跑得快,潛水艇比人類潛得深,並不意味著汽車或潛水艇超越了人類智力。
倫敦國王學院研究員邁克·庫克(Mike Cook)表示,拿人工智慧和人類作對比不合理也不公平。
對此,劉知遠表示,相比評測集(用於評估人工智慧模型性能的數據集)的評價成績,更值得關注的是,大模型在我們工作生活中的應用程度和在各個行業的滲透程度。
跳出思維窠臼
智力的本質仍是未解之謎。愛因斯坦大腦解剖顯示,其頂葉皮層神經元密度高於常人,但基因研究未發現“智商決定簇”。這提示智力可能是遺傳、環境、文化共同作用的湧現現象。
“人類終極考試測試中,AI慘敗反而令人安心。”CAIS創始人丹·亨德里克斯表示,“當機器在結構化問題中碾壓人類時,我們更需要珍視那些‘低效’卻珍貴的能力:在資訊不全時果斷行動,在規則模糊時堅守底線,在絕望之境中創造希望。”
馬斯克預言,在2025年底,AI的智力水準將超越人類個體,2027年將超過全人類。劉知遠也開始想像AGI(通用人工智慧)到來的那一刻——“回顧歷史,資訊革命歷經了50個摩爾定律的倍增週期,歷時80年。而密度定律的倍增週期僅為3.3個月,按照這個標準,從2020年開始,僅用13年左右就可完成智慧革命的週期。”
在劉知遠看來,真正的智慧革命或許正蟄伏在AI答錯的題目里——那些涉及隱喻解碼的詩歌賞析、需要共情參與的道德抉擇,以及必須突破物理法則的科幻構思。
“資訊革命剛開始的時候,IBM 的創始人沃森曾認為,五台主機就可以滿足全世界的計算需求。但今天,我們看到全球有數十億、上百億的計算設備在服務社會。”劉知遠表示,智慧革命也要走一條類似之路,不斷提高能力密度,降低計算成本,更加普惠。
顯然,面對AI指數級進化,人類需跳出“零和博弈”思維,構建新型協作框架。
來源:瞭望東方週刊