能否推薦幾個比較有研究價值的slam方向?
更新于:2025-04-06 00:07:33
有一次我在面試的時候聊到過這個事。
在長週期上看,整套估計理論都是受AI影響的。slam里大部分地方用的貝葉斯估計理論,都是假設了“物體的先驗分佈難以描述”,所以p(x|y) = p(y|x) (px) / p(y)。然後又假設了物體的概率由高斯分佈來刻畫,然後我們才能推導各類均值、協方差應該怎麼變化,怎麼估計。我們現在為什麼要用卡爾曼濾波器,為什麼要用圖優化,根本原因就是缺少處理複雜分佈的數學工具:
- 我們目前數學工具只能有效的處理高斯分佈的雜訊。更複雜的分佈沒法用簡潔的理論來刻畫,非線性的系統只能用線性化方式,當作局部線性系統來處理,所以有了各種濾波器;
- 如果考慮更高階的參數,比如三、四階的雜訊參數或者二階以上的線性化,整個數學理論就變得醜陋無比。同時,很難讓人相信,真實世界的雜訊真有那些高階的雜訊項。
所以現在整套估計理論是在局部線性化系統里做文章的。可是做了再多的文章,真實的世界的雜訊就是高斯分佈嗎?真實世界的狀態量就是一個均值和一個協方差能刻畫的嗎?這是極大的疑問。我們並沒有足夠地尊重事物的複雜性。人類的語言是一個高斯分佈嗎?圖像是高斯分佈嗎?點雲是高斯分佈嗎?如果它們不是高斯分佈,我們有沒有更好的數學工具來處理它們??
AI的經驗告訴我們:
- 人類對複雜事物總結出來的經驗是不靠譜的。不管是通過簡化(比如將系統線性化處理,比如各類經驗公式,比如各類補償項,比如點雲演演算法里的點線面近似),還是通過更加主觀、玄學的方式(圍棋的定式,語言的語法,或者將複雜過程人為分成step by step的處理方式),它們都不能更好的處理事物的複雜性,最終只能得到一個勉強可用的,不夠自然的方案。長遠看來,這些方法都是要被淘汰掉的。在點雲、圖像里提線條,本質上和NLP早期對句子分析主謂賓是一樣的。所以最終搞出語言模型的不是語法學家,不是去分析每個句子的主謂賓,搞出圖像模型的也不是去比每個圖元的大小和數值,而是一百億個無名參數,它們才能產生自然的語言和圖像。
- 人類真正能夠描述複雜事物的理論並不存在。人類的數學是追求簡潔的,所以人類能夠看懂,能夠推動的公式都只在一頁範圍以內,否則我們可憐的大腦就要超載了。但誰來保證現實的事物就真的能用幾個參數來描述呢?為什麼它們的規律需要讓人類能夠看懂和理解呢?如果它們真的是幾十億的參數來描述的分佈,我們又有什麼數學工具能夠處理它們呢?
- 現實當中的圖像、文字、點雲,乃至演算法、程式,實際都是和自然數集一一對應的東西。一個圖像可以根據顏色表和像素位置轉換成一個自然數(只是很大),一個程式exe文件實際上是一個二進位數,也可以轉換成對應的自然數(也很大)。反過來,給定一個自然數,也可以生成對應的圖像、點雲、程式、算法。我們有沒有能夠真正描述一個落在自然數集上的複雜分佈的能力??通過AI,我們能夠判定這個自然數有哪些性質,這個圖片有什麼內容,它們的分佈如何,它們在時間上的關係是怎樣的。這些事情在以往的估計理論里都是假設成無法做到的,所以才需要各種局部的近似。現在AI能夠大體告訴你p(x)是什麼,或者p(x+1|x)是什麼,那麼估計理論是不是也應該有所變化?
所以長遠看來,slam為什麼要“建”圖?如果“圖”本身是可以被刻畫的,為什麼不是我通過一些給定的數據來“選”圖?文字層面可以先寫一段,然後讓機器再補一段。那建圖為什麼不能是先給一堆圖片,再補上其他的圖片?能不能是先給一部分點雲,讓機器補上另一堆點雲?用點雲生成點雲的過程,可以叫他“建圖”,是不是和文字生成文字,或者圖像生成圖像是一樣的?
以上純屬腦洞,比較發散,歡迎討論。