能否推薦幾個比較有研究價值的slam方向？

更新于：2025-04-06 00:07:33

有一次我在面試的時候聊到過這個事。

在長週期上看，整套估計理論都是受AI影響的。slam里大部分地方用的貝葉斯估計理論，都是假設了“物體的先驗分佈難以描述”，所以p(x|y) = p(y|x) (px) / p(y)。然後又假設了物體的概率由高斯分佈來刻畫，然後我們才能推導各類均值、協方差應該怎麼變化，怎麼估計。我們現在為什麼要用卡爾曼濾波器，為什麼要用圖優化，根本原因就是缺少處理複雜分佈的數學工具：

我們目前數學工具只能有效的處理高斯分佈的雜訊。更複雜的分佈沒法用簡潔的理論來刻畫，非線性的系統只能用線性化方式，當作局部線性系統來處理，所以有了各種濾波器；
如果考慮更高階的參數，比如三、四階的雜訊參數或者二階以上的線性化，整個數學理論就變得醜陋無比。同時，很難讓人相信，真實世界的雜訊真有那些高階的雜訊項。

所以現在整套估計理論是在局部線性化系統里做文章的。可是做了再多的文章，真實的世界的雜訊就是高斯分佈嗎？真實世界的狀態量就是一個均值和一個協方差能刻畫的嗎？這是極大的疑問。我們並沒有足夠地尊重事物的複雜性。人類的語言是一個高斯分佈嗎？圖像是高斯分佈嗎？點雲是高斯分佈嗎？如果它們不是高斯分佈，我們有沒有更好的數學工具來處理它們？？

AI的經驗告訴我們：

人類對複雜事物總結出來的經驗是不靠譜的。不管是通過簡化（比如將系統線性化處理，比如各類經驗公式，比如各類補償項，比如點雲演演算法里的點線面近似），還是通過更加主觀、玄學的方式（圍棋的定式，語言的語法，或者將複雜過程人為分成step by step的處理方式），它們都不能更好的處理事物的複雜性，最終只能得到一個勉強可用的，不夠自然的方案。長遠看來，這些方法都是要被淘汰掉的。在點雲、圖像里提線條，本質上和NLP早期對句子分析主謂賓是一樣的。所以最終搞出語言模型的不是語法學家，不是去分析每個句子的主謂賓，搞出圖像模型的也不是去比每個圖元的大小和數值，而是一百億個無名參數，它們才能產生自然的語言和圖像。
人類真正能夠描述複雜事物的理論並不存在。人類的數學是追求簡潔的，所以人類能夠看懂，能夠推動的公式都只在一頁範圍以內，否則我們可憐的大腦就要超載了。但誰來保證現實的事物就真的能用幾個參數來描述呢？為什麼它們的規律需要讓人類能夠看懂和理解呢？如果它們真的是幾十億的參數來描述的分佈，我們又有什麼數學工具能夠處理它們呢？
現實當中的圖像、文字、點雲，乃至演算法、程式，實際都是和自然數集一一對應的東西。一個圖像可以根據顏色表和像素位置轉換成一個自然數（只是很大），一個程式exe文件實際上是一個二進位數，也可以轉換成對應的自然數（也很大）。反過來，給定一個自然數，也可以生成對應的圖像、點雲、程式、算法。我們有沒有能夠真正描述一個落在自然數集上的複雜分佈的能力？？通過AI，我們能夠判定這個自然數有哪些性質，這個圖片有什麼內容，它們的分佈如何，它們在時間上的關係是怎樣的。這些事情在以往的估計理論里都是假設成無法做到的，所以才需要各種局部的近似。現在AI能夠大體告訴你p(x)是什麼，或者p(x+1|x)是什麼，那麼估計理論是不是也應該有所變化？

所以長遠看來，slam為什麼要“建”圖？如果“圖”本身是可以被刻畫的，為什麼不是我通過一些給定的數據來“選”圖？文字層面可以先寫一段，然後讓機器再補一段。那建圖為什麼不能是先給一堆圖片，再補上其他的圖片？能不能是先給一部分點雲，讓機器補上另一堆點雲？用點雲生成點雲的過程，可以叫他“建圖”，是不是和文字生成文字，或者圖像生成圖像是一樣的？

以上純屬腦洞，比較發散，歡迎討論。