專訪智源研究院院長王仲遠:實現更廣泛意義上的AGI至少需要5~10年甚至更久
更新于:2025-03-30 16:09:45

3月27日,2025中關村論壇年會在京開幕,論壇將持續至3月31日。今年論壇年會的主題是“新質生產力與全球科技合作”。

3月29日下午,北京智源人工智慧研究院(以下簡稱“智源研究院”)院長王仲遠在未來人工智慧先鋒論壇上作了《具身智慧技術演進與生態共建》的演講。

在該場論壇上,智源研究院發佈首個跨本體具身大小腦協作框架RoboOS與開源具身大腦RoboBrain,可實現跨場景多任務輕量化快速部署與跨本體協作,推動單機智慧邁向群體智慧。

論壇開始前,王仲遠接受了《每日經濟新聞》(以下簡稱NBD)記者採訪。

智源研究院是在科技部和北京市支援下,聯合北京人工智慧領域優勢單位共建的人工智慧領域的新型研發機構。王仲遠是第二任院長,他在2018年榮獲“《麻省理工科技評論》35歲以下科技創新35人”;並有微軟、Facebook(現Meta)、美團、快手的工作經歷。

圖片來源:每經記者 張蕊 攝

目前算力限制仍是大模型發展的瓶頸因素 

NBD:隨著DeepSeek的突破,是不是意味著算力對大模型來說已經不是一個問題了?

王仲遠:我不太認同這個觀點。DeepSeek確實取得了出色成果,確保我們能在有限的算力之下訓練出與ChatGPT-4相當的大模型。然而,我們要意識到,這樣的技術也可能被國際上其他機構和國家使用,從而推動大模型向更大規模的方向發展。

如今,由於工程上的優化,訓練更大規模參數的模型成為可能。這時候如果Scaling Law(規模定律,即模型規模越大,其智能水準就越高)還有效的話,模型的性能就有可能進一步提升。

所以,現在的模型,尤其是基礎模型看起來遇到了一定的瓶頸,或者說其性能提升相對緩慢,一個很重要的因素是數據(不足),另外算力限制也是瓶頸,所以我不認為現在的算力就足夠使用了,我認為整個大模型的技術還遠未到盡頭,算力仍不可或缺。

今年在人工智慧應用上會出現大爆發 

NBD:業內都說今年是人工智慧普惠發展的轉捩點,您怎麼看?您認同這個觀點嗎?

王仲遠:對,首先,我認為今年在人工智慧的應用上會出現大爆發。因為國產模型能夠用較小的算力實現相當的性能,所以一定會進入應用落地階段。

中國擁有海量的應用場景和應用需求,這是我們的優勢。當基礎模型能力提升后,其實我們有眾多的產品經理和創業者,可以將模型進行落地應用,尤其是大語言模型的落地應用,存在巨大的產業爆發潛力。

當然,我也反覆強調過,大語言模型是遠遠不夠的。即使不談機器人,我們也可以看到,真實的產業中存在大量多模態數據,比如流程圖、醫療領域的X光片數據、CT數據以及各行業的感測器數據等,它們都不是簡單的文本數據。所以,多模態大模型是繞不開的一種能力。

現在的多模態大模型,尤其是多模態理解模型,應該說還處於相對早期的階段,雖然有一些解決方案,比如以大語言模型為核心的解決方案。但很多大語言模型在增加了多模態能力后,其原有的語言能力會有所退化。這也是智源研究院去年著重向統一原生多模態方向突破的重要原因。

去年,智源研究院正式發佈Emu3,這是統一原生的多模態大模型,能夠將文字、圖像、視頻從一開始就進行原生的統一,將理解和生成進行統一。我們認為,這種統一的多模態大模型有望助力大模型在各行業落地,取得更好的效果。

具身智慧是實現AGI的一個核心能力

NBD:您覺得我們距離實現AGI(通用人工智慧)還有多久?還需要解決哪些問題?

王仲遠:很坦誠地講,目前AGI還沒有非常明確的定義和廣泛的共識。如果僅就文字能力的AGI來看,其實某種程度上已經達到了AGI。如果以圖靈測試為判斷以往人工智慧是否實現AGI的標準的話,至少在文字層面,人工智慧很可能已經達到了AGI。

如今的大語言模型除了其通用性以外,在很多特定領域,比如數學、程式設計等,已能接近碩士乃至博士水準。從這些方面來看,我們可以認為人工智慧已經部分達到了某種程度的AGI。

但如果從更廣泛的意義來看,比如讓人工智慧理解人類的語言、解決實際生活中的具體問題,像做家務、做飯、洗碗等,距離實現這種程度的AGI,我認為還有很長距離,可能還要很多年,至少5到10年甚至更長時間。因為在這個過程中,它依賴於本體的能力,依賴於對世界模型構建的進展,依賴於不同的落地場景中數據的積累等,所以還需要經歷很長的週期。

NBD:具身智慧的物理交互是不是會成為AGI的一個核心能力?

王仲遠:它肯定是我們理解的廣泛意義上的AGI核心能力,最終人工智慧要從數位世界走向物理世界,就一定要跟真實的世界進行交互,並且在交互中學習。

每日經濟新聞

歐洲主要股指走高
歐洲主要股指走高
2025-03-26 01:20:29