我很推崇馬斯克的第一性原理:既然人不需要雷射雷達就能開車,那麼自動駕駛車就不需要!剩下的困難,只不過是發展過程中的短暫痛苦罷了,終究會克服。
這裡面先重點說一下鐳射雷達 vs 攝像頭。
攝像頭這個東西吧,說實話能力並不強,和人眼睛相比差遠了。究其原因,是之前的攝像頭只是用於拍攝記錄的,並不是為了自動駕駛專用的攝像頭。當時沒需求,就沒發展出來自動駕駛專用的。攝像頭感測器與人類眼睛在感知能力上差異還是較大的:
可見光範圍:人類眼睛可以感知從紫光到紅光的整個可見光範圍,而普通攝像頭感測器只能感知其中的一部分,主要是400-700納米(nm)的波長範圍。
視角:人眼的視角非常寬廣,可以達到188°,而一般攝影鏡頭的視角遠小於人眼,通常在117°以下。
感光度:人眼的感光度非常高,可以在很亮和很暗的環境中都能看清楚,而攝像頭的感光度相對較低,需要在特定的光線條件下才能正常工作。
寬容度:人眼可以在很亮和很暗的環境中都能看清楚,而攝像頭的寬容度遠小於人眼,無法同時記錄明亮和黑暗的細節。
這裡提出一個觀點:誰說攝像頭一定是當下攝像頭的感知能力?隨著自動駕駛的普及,未來大概率會出現自動駕駛專用攝像頭。並且專用攝像頭系統需要具備遠超人類眼睛的能力,而不是當下遜色於人類視覺的狀態。如果基於此的話,攝像頭完全可以平替雷射雷達。
而攝像頭的突破是不是有可能呢?回歸第一性原理,從本源出發。如同人類視覺感知就是在感受“電磁波”一樣,人造設備感受的電磁波的能力(波長)不同,我們給他們起了不同的名字:毫米波雷達,攝像頭,激光雷達。。。。當然如果有需要,我們人類還可以發明出來其他的感測器,去感知特定頻段(波長)的電池波。這裡如果我們打開思路,攝像頭不是非要感知可見光波長的範圍,為了適應自動駕駛(雨天,黑天等),我們完全可以搞出來“暗環境攝像頭”,來滿足自動駕駛的需求。
我們為啥要有雷射雷達?
最初選擇雷射雷達在於3D成像能力。特斯拉的BEV(鳥瞰視角)演算法和OCC佔用網路的引入,使得多目攝像頭也能具備感知縱深的能力,結果就是給2D圖片添加了一個維度,成為3D立體視覺。這個時候昂貴成本的雷射雷達就比較尷尬了。
雨天!不受光線影響:激光雷達原理是通過發射鐳射並接收反射信號來工作的,不受光線變化的影響。即使在雨天,激光雷達仍然能夠正常工作,提供準確的距離和空間資訊。但是很難想像,我們的需求是:雨天,自動駕駛車輛也要高速狂奔!?人類也是在降速行駛啊。這點,人眼的純視覺能做到雨天降速行駛,如果再疊加上改良后的暗環境攝像頭,純視覺雨天自動駕駛也是完全可以實現的。
雷射雷達的世界 vs 純視覺佔用網路的世界
人類能量 = 車輛成本
人類為啥沒有進化出雷射雷達,其實源於自然選擇,更重要的是激光雷达的方案更消耗能量。早期人類獲取食物活著就很艱難了,哪有多餘的能量用於發射雷射雷達。反觀車輛,一樣的道理,我們要的不是昂貴的、高大上的自動駕駛,而那種低成本卻剛好解決問題的方案才是最優解!
對比之下,純視覺具備巨大的成本優勢,更易於普及。純視覺更進一步的成本壓力在於對算力的需求,因為更高算力意味著更貴的晶元。而DeepSeek的出現卻指出了另外的方向:誰說自動駕駛AI演算法一定要高算力?下面這段話雖然難以讓人理解,但是給我們展示一種低算力高性能的大模型前進方向。這就是純視覺的進一步壓縮成本的解決方案!未來“片上AI”或許真的可以到來。
DeepSeek採用廣義強化策略優化技術,通過純強化學習直接提升模型推理能力,無需依賴海量標註數據。傳統方法需收集大量思維鏈(CoT)數據,而DeepSeek-R1-Zero僅用規則獎勵機制(如準確性獎勵、格式獎勵)即實現推理能力的湧現,節省了數據準備階段的算力消耗。通過模型蒸餾技術,將大模型能力遷移至小參數模型。例如,Qwen-14B在桌面級硬體即可運行,性能接近32B閉源模型,推理成本降至OpenAI o1的1/30。引入MLA(多注意力低秩壓縮)和MoE(混合專家)架構,動態啟動部分參數,減少計算冗餘。例如,DeepSeek-V3通過MoE架構將訓練效率提升3倍。
發展方向
基於以上種種,我們現在可以看到各大整車廠在提供兩種自動駕駛產品:城市NOA和高速NOA。就當下的技術來講,城市NOA必然配備雷射雷達,而高速NOA則可以完全依賴純視覺實現。受限於當下的技術條件,這種選擇是明智的。但是發展方向呢?
一個視力受損的盲人,無奈選擇了一根拐棍作為盲杖,當有一天他視力恢復了,盲杖必然會被遺棄。因為純視覺還處於發展的階段,卡在了“拍照攝像頭”和“模型算力”的瓶頸階段,激光雷達成為當下可選、好用的拐棍,以用來實現更加可靠的城市NOA方案。但是這並不意味著未來的純視覺就會落寞,反而“技術平權”驅動下的成本壓力會被放大,更多的企業具有先天“降低成本、佔據市場”的原動力,視覺瓶頸必然會被突破,拐棍必然會被遺棄,純視覺自動駕駛也必然成為主流!