李飛飛團隊456頁最新報告：中美AI模型性能近乎持平，系統推理成本降至280分之一

EDITOR_DEFINED-AI EDITOR_DEFINED-模型 CONCEPT-人工智慧 EDITOR_DEFINED-李飛飛每日經濟新聞李飞飞模型 gpt 人工智能 gemini 揭底因果归纳语言模型空间智能智能体种子轮利益相关者基准生成文生指数

更新于：2025-04-10 08:32:53

4月8日，由李飛飛聯合領導的斯坦福大學以人為本人工智慧研究所（Stanford HAI）發佈了《2025年人工智慧指數報告》（Artificial Intelligence Index Report 2025）。這份長達456頁的報告，深入剖析了2024年全球人工智慧行業的發展態勢，揭示了12大關鍵趨勢。

圖片來源：斯坦福大學以人為本人工智慧研究所官網

報告認為，AI正變得更高效、更普惠。隨著小模型性能飆升，達到GPT-3.5水平的系統推理成本在過去兩年間下降到了原來的280分之一。

報告還指出，中國高性能AI模型的數量和質量不斷提升，中美AI模型性能近乎持平。與此同時，中國在AI領域論文數量和專利數量上保持領先地位。

AI性能飆升，表現逐漸接近人類

2023年，研究人員推出了MMMU、GPQA和SWE-bench等頗具挑戰性的新基準測試，用於測試AI系統的極限。

測試發現，僅僅一年後，AI系統的性能便實現大幅躍升——在MMMU測試中得分提升18.8個百分點；在GPQA測試中提高48.9個百分點；SWE-bench測試里更是提升了67.3個百分點。

從整體趨勢來看，AI在各大領域的表現逐漸接近人類，甚至在某些情形下，AI智慧體能在限時程式設計任務中超越人類。

在部分評測指標上，AI技術性能表現與人類水平的對比圖片來源：《2025年人工智慧指數報告》

然而，複雜的推理對於AI模型而言，仍然是一個挑戰。

在處理類似國際數學奧林匹克競賽題目這類任務時，AI模型表現出色。但面對諸如PlanBench等複雜推理基準測試時，卻仍顯得吃力。即使面對那些已知存在正解的邏輯任務，AI也經常無法可靠地解決邏輯任務，這極大限制了AI在對精度要求極高的高風險行業中的應用。

各大模型在PlanBench基準測試上的正確率圖片來源：《2025年人工智慧指數報告》

全球AI投資飆升

2024年，生成式AI在全球範圍內吸引了339億美元的私人投資，與2023年相比，增長幅度達到18.7%。

與此同時，企業對AI的採用率顯著提升，從2023年的55%上升至2024年的78%。越來越多的研究結果表明，AI不僅能夠有效提升生產力，在多數情況下，還能縮小工作力的技能差距。

值得關注的是，將生成式AI應用於至少一項業務職能的企業數量出現了激增。2023年，這一比例僅為33%，而到了2024年，該比例躍升至71%，增幅超過一倍。

2017年至2024年，將AI應用於至少一項業務職能企業的比例不斷上升圖片來源：《2025年人工智慧指數報告》

中美模型性能近乎持平

數據顯示，美國在AI模型的數量上處於領先地位。2024年，總部位於美國的機構擁有40個知名AI模型，超過中國（15個）和法國（3個）。

圖片來源：《2025年人工智慧指數報告》

不過，報告強調，中美模型之間的性能差距正在迅速縮小。以MMLU和HumanEval等主流基準測試結果來看，2023年，中美頂尖模型之間的性能差距還在兩位數，然而到了2024年，這一差距已大幅縮小，幾乎處於同一水準。

與此同時，中國在AI領域論文數量和專利數量上依舊保持領先地位。

小模型性能飆升，推理成本降至280分之一

報告指出，AI正變得更加高效、經濟實惠和易於獲取。

隨著小模型性能提升，達到GPT-3.5水平的系統推理成本在過去兩年間下降至280分之一。在硬體層面，成本每年下降30%，而能源效率每年提高40%。

2022年，在MMLU基準測試中，得分超60%的最小模型是PaLM，參數量為5400億。到了2024年，微軟Phi-3-mini僅用38億參數，就取得了同樣的實力。這代表，兩年多的時間里模型參數減少了142倍。

此外，開源模型正在迎頭趕上，與閉源模型的差距逐漸縮小。2023年，開源模型明顯落後於閉源模型。而到2024年，這一差距幾乎消失。2024年1月初，頂尖閉源模型在大模型競技場排行榜上以8.0%的成績超過了頂尖開源模型。而到2025年2月，這一差距已縮小至1.7%。

2022年至2024年，在MMLU上得分高於60%的小模型圖片來源：《2025年人工智慧指數報告》

中國對AI的態度最樂觀

在對AI的態度方面，中國是全球主要國家和地區中最樂觀的。

報告顯示，2024年中國有83%的人認為AI產品和服務利大於弊，排在後面的是印尼（80%）和泰國（77%）。相比之下，美國（39%）、加拿大（40%）等的樂觀情緒遠低於中國。

2022年至2024年，各國認為“使用AI產品和服務利大於弊”的比例圖片來源：《2025年人工智慧指數報告》

不過，從整體趨勢而言，各國對於AI的樂觀情緒正逐漸升溫，特別是在一些曾對AI最持懷疑態度的國家。數據顯示，自2022年起，美國認為“使用AI產品和服務利大於弊”的比例提升了4%，加拿大增長了8%，法國增長了10%。

三分之二受訪者稱AI將在未來3至5年對日常生活產生顯著影響

從醫療保健到交通運輸，AI正迅速從實驗室走向日常生活。

2023年，美國食品藥品監督管理局（FDA）批准了223款AI醫療設備，而2015年僅有6款。

1995年至2023年FDA批准的AI醫療設備數量圖片來源：《2025年人工智慧指數報告》

道路交通同樣因AI技術發生著日新月異的變化。自動駕駛汽車不再只是實驗，而是逐步駛入現實生活。

美國最大的運營商之一Waymo每周提供超過15萬次自動駕駛服務，而百度旗下的“蘿蔔快跑”（Apollo Go）無人駕駛計程車隊已在中國多個城市正式投入運營。

此外，人們對AI融入日常生活的期待與認可度正在上升。據統計，全球範圍內，有多達三分之二的受訪者認為，在未來三到五年內，AI產品及服務將對日常生活產生顯著影響。

每日經濟新聞

AI重構天氣預報新圖景

2025-03-27 13:01:43

“AI+傳統育種” 讓農業種植插上智慧“翅膀”

2025-03-27 13:22:39

曝賈揚清AI創企賣身英偉達！員工僅20人，身價數億美元

2025-03-27 14:19:42

阿裡開源首個全模態大模型，將給產業帶來哪些機會？

2025-03-27 22:17:17

B站 CEO 陳睿：2024 年觀看 AI 視頻的平台使用者超八成是 95 後

2025-03-27 22:36:07

能提供情緒價值還能做家務，這樣的機器人有望量產

2025-03-30 10:30:49

是對手還是助手，醫生如何與AI“做同事”？

2025-03-30 10:38:02

李開複：開源引領AI未來，超大模型將轉型“教師”角色

2025-03-30 10:58:14

打造算力超市成都新落地一家科技公司

2025-03-30 15:43:14

能提供情緒價值的機器人來了

2025-03-30 18:21:44

是對手還是助手，醫生如何與AI“做同事”？

2025-03-31 08:01:20

傳聞中的 iPhone Fold 將採用 4：3 的螢幕比例

2025-03-31 14:09:47

這一職業，突然爆火！簡歷剛投就被“搶光”

2025-04-01 06:27:24

楊元慶宣佈聯想集團開啟第五次創業

2025-04-01 12:10:43

上線國家智慧教育平臺！騰訊混元實用再“上新”

2025-04-01 18:29:08

華為發佈 2024 年年度報告，實現全球銷售收入 8621 億，淨利潤 626 億，如何評價這一業績？

2025-04-02 01:39:33

馬斯克xAI公司"Grok"商標糾紛，初創團隊200萬融資夢碎？

2025-04-02 13:02:54

文心大模型X1登陸百度智慧雲，性能卓越價格親民，AI應用新篇章！

2025-04-02 21:17:56

生物育種助力農業豐收為中國種業提供強“芯”服務

2025-04-03 06:38:08

經常做會議記錄，有什麼AI神器推薦？

2025-04-06 02:17:50

我國生態環境監測網路加快數智化轉型

2025-04-06 16:02:34

“AI+科研”，科研範式革命真的來了？

2025-04-07 07:20:22

我國生態環境監測網路加快數智化轉型

2025-04-07 09:07:49

人工智慧何以善用善治

2025-04-07 09:22:32