我記得直到2021年的時候,周志華教授還說過嚴肅的學者不應該過多研究AGI類似的話,但是現在,這位傳統統計機器學習領域的世界頂尖學者似乎也不能免俗的把注意力更多的投向大模型。
作為一個統計專業出身的人,我至今忘不了當我第一次知道深度學習的黑盒屬性後的驚訝。我不斷的詢問同事,GCN網路的底層邏輯到底是什麼,每個參數又應該如何解釋。同樣的疑惑,後面我也給很多人解答過,他們有的聽懂了,有的覺得我在騙他們。
朱松純教授作為統計學的大佬,對於深度學習的懷疑某種程度上甚至可以解釋為一種職業標籤。早年搞深度學習的這幫人也確實被當作異端,hinton、lecun能在這條路上堅持下去也確實有幾分面對宗教裁判所而不放棄真理的信念和勇氣。
但是說到底,統計機器學習和深度學習並非非黑即白的對錯之爭,反而更像三十年河東三十河西的事物周期變化。貝葉斯學派被頻率學派當作異端了那麼多年,最終隨著計算機技術的發展,模擬採樣能力的提升揚眉吐氣了一把,可是這也不耽誤到現在為止,貝葉斯統計在玄學以外好像也沒有太大的實際落地應用。
深度學習相比於貝葉斯統計還是好很多的,起碼在CV和NLP領域確實現了很多貨真價實的落地應用,更不用說DRL一波把圍棋的逼格幹的七七八八。那幾年強化學習paper在頂會的比例可不比現在的大模型低多少。但是到目前為止david silver說的DL+RL=AGI似乎也沒實現,否則估摸著他今年也能跟著一起拿圖靈獎。
所以,我覺得與其認定大模型一定是這波AI的答案,不如祈禱大模型不是第三次AI寒冬的標誌。深度學習和當年在看瘋子的眼神下堅守的研究者們,已經通過這麼多年的努力上演了一出可以大書特書的逆襲故事。當年給堅守在deep learning領域的研究者們是否會想到如今的deep會deep到這個地步。
但很難說這是不是故事的最終結局。
黑盒並沒有隨著網路規模的不斷擴大而變得透明了些,反而隨著網路規模的擴大,很多人對於神經網路的難解釋更加心安理得,畢竟參數少的時候要可解釋性,參數多了還要可解釋性,那tm的scaling不是tm的白law了嘛。大模型的幻覺似乎總是讓人覺得實際上是生成錯誤但又不知道為什麼錯誤的一種托詞,大模型的幻覺機制是否可以與人犯錯做類比,目前並不能得到結論。如何能找到創造足夠規模和利潤的商業模式似乎暫時也沒有幾個人能回答。
我們是否被美國的AI敘事帶偏,目前很難回答。但似乎,在現在這個階段,資本願意不計成本大額投入的也只剩下AI了,只剩下以深度學習、transformer、大模型為標籤的AI了。敘事的產生很多時候不是講給圈內人聽的,而是給社會大眾的一頁PPT,作用不是為了證明內容正確與否,而是讓人願意為此投錢買單。所以統計機器學習的下一個大眾敘事會是何時,以什麼樣的形式出現呢?