具身智能的“視界觀”:AI視覺(jué)感知傳感器全景解析

0 評(píng)論 674 瀏覽 0 收藏 19 分鐘

本文深入探討了具身智能感知技術(shù)的多種傳感器,包括單目視覺(jué)、雙目視覺(jué)、結(jié)構(gòu)光、ToF、激光雷達(dá)和事件相機(jī)等,分析了它們的技術(shù)原理、優(yōu)缺點(diǎn)及應(yīng)用場(chǎng)景,展望了未來(lái)具身智能感知系統(tǒng)的發(fā)展趨勢(shì)。

1 具身感知

在討論具體視覺(jué)傳感器之前,先拋出一個(gè)問(wèn)題:為什么具身智能的感知如此困難?

傳統(tǒng)的工業(yè)機(jī)器人工作在結(jié)構(gòu)化環(huán)境中,坐標(biāo)是確定的,光照是恒定的。而具身智能面臨的是充滿(mǎn)不確定性的現(xiàn)實(shí)世界——強(qiáng)烈的陽(yáng)光干擾、透明的玻璃幕墻、快速移動(dòng)的行人以及紋理缺失的白墻。

1.1 從2D圖像到3D語(yǔ)義的跨越

感知的本質(zhì)是信息的重構(gòu)。攝像頭捕捉的是3D世界在2D平面上的投影,這個(gè)過(guò)程伴隨著維度的丟失(深度信息消失)。感知的核心任務(wù)就是通過(guò)算法或主動(dòng)探測(cè)手段,把這個(gè)丟失的Z軸找回來(lái),并在此基礎(chǔ)上疊加語(yǔ)義信息(這是杯子還是石頭?)和時(shí)序信息(向左還是向右移動(dòng)?)。

這一過(guò)程不僅依賴(lài)于傳感器本身的性能(信噪比、動(dòng)態(tài)范圍),更依賴(lài)于后端算力的支撐。隨著NVIDIA Orin等大算力芯片的普及,原本受限于計(jì)算瓶頸的算法(如OCC占用網(wǎng)絡(luò))得以在端側(cè)實(shí)時(shí)運(yùn)行,推動(dòng)了感知技術(shù)的代際躍遷。

1.2 主動(dòng)感知與被動(dòng)感知的博弈

基于場(chǎng)景定義產(chǎn)品形態(tài),首先要面對(duì)的決策是:主動(dòng)感知(Active Sensing)vs被動(dòng)感知(Passive Sensing)。

  • 被動(dòng)感知(如單目、雙目):像人眼一樣,不發(fā)射能量,僅接收環(huán)境光。隱蔽性好,功耗低,無(wú)多機(jī)干擾,但極度依賴(lài)環(huán)境光照和紋理。
  • 主動(dòng)感知(如LiDAR、ToF、結(jié)構(gòu)光):像蝙蝠一樣,向環(huán)境發(fā)射能量(激光、紅外光)并接收回波。精度高,不受光照影響(除非陽(yáng)光過(guò)強(qiáng)導(dǎo)致飽和),但存在功耗高、多機(jī)干擾和材質(zhì)吸收問(wèn)題。

2 單目視覺(jué)

單目視覺(jué)是目前最具爭(zhēng)議也最具潛力的技術(shù)路線。以Tesla為代表的“純視覺(jué)派”從第一性角度認(rèn)為,既然人類(lèi)靠雙眼(實(shí)際上大部分時(shí)間靠大腦對(duì)單眼信息的腦補(bǔ))能開(kāi)車(chē),機(jī)器人也應(yīng)該可以。

2.1 技術(shù)原理

傳統(tǒng)的單目測(cè)距極其困難,因?yàn)橐粡堈掌校幍男≤?chē)和遠(yuǎn)處的大車(chē)可能占據(jù)相同的像素面積(尺度模糊性)。

現(xiàn)代單目視覺(jué)不再依賴(lài)幾何計(jì)算,而是依賴(lài)數(shù)據(jù)驅(qū)動(dòng)的先驗(yàn)知識(shí)。

  • 自監(jiān)督學(xué)習(xí):利用視頻序列中的幀間運(yùn)動(dòng)作為監(jiān)督信號(hào)。如果一個(gè)物體在相鄰幀中移動(dòng)得快,它離得近;移動(dòng)得慢,離得遠(yuǎn)。神經(jīng)網(wǎng)絡(luò)通過(guò)數(shù)億幀的視頻訓(xùn)練,學(xué)會(huì)了這種“直覺(jué)”。
  • BEV變換:將前視攝像頭的透視圖像,通過(guò)Transformer模型投影到俯視的3D空間坐標(biāo)系中。這是實(shí)現(xiàn)自動(dòng)駕駛和機(jī)器人路徑規(guī)劃的關(guān)鍵步驟。

2.2 核心算法:Occupancy Network

Tesla的Occupancy Network(占用網(wǎng)絡(luò)),這是目前單目視覺(jué)的巔峰之作。

  • 體素化:將機(jī)器人周?chē)目臻g切割成無(wú)數(shù)個(gè)微小的立方體(Voxel)。
  • 狀態(tài)預(yù)測(cè):網(wǎng)絡(luò)不輸出“這里有輛車(chē)”,而是輸出每個(gè)體素的“占用概率”和“語(yǔ)義標(biāo)簽”。
  • 優(yōu)勢(shì):它可以識(shí)別訓(xùn)練集中從未見(jiàn)過(guò)的異形障礙物(如側(cè)翻的卡車(chē)、散落的石塊),這是傳統(tǒng)目標(biāo)檢測(cè)算法無(wú)法做到的。

通過(guò)稠密的空間體素占用確定感知結(jié)果,為預(yù)測(cè)和規(guī)劃提供更加準(zhǔn)備的條件。

2.3 硬件選型與工程挑戰(zhàn)

  • 傳感器:通常選用高動(dòng)態(tài)范圍的CMOS以應(yīng)對(duì)隧道出口或逆光場(chǎng)景。
  • 視場(chǎng)角 (FoV):往往需要魚(yú)眼(Fisheye)與長(zhǎng)焦(Narrow)組合。接近量產(chǎn)的Tesla Optimus 3.0應(yīng)該就是采用和cybercab前后周視和后視這五個(gè)攝像頭一樣的攝像頭。共5個(gè)攝像頭,前面2個(gè),側(cè)向2,正后1個(gè)。
  • 算力門(mén)檻:?jiǎn)文恳曈X(jué)是“硬件省錢(qián),軟件燒錢(qián)”。它需要極高的端側(cè)推理算力來(lái)運(yùn)行巨大的Transformer模型,否則延遲會(huì)高到無(wú)法接受。

3 結(jié)構(gòu)光:工業(yè)級(jí)的毫米精度

如果說(shuō)單目是“腦補(bǔ)”,雙目就是“幾何”。它是目前最具性?xún)r(jià)比、最成熟的近場(chǎng)深度感知方案,廣泛應(yīng)用于無(wú)人機(jī)、掃地機(jī)器人以及波士頓動(dòng)力Spot。

3.1 技術(shù)原理:三角測(cè)距的幾何美學(xué)

雙目相機(jī)模仿人眼,利用兩個(gè)平行放置的攝像頭之間的視差來(lái)計(jì)算深度。

3.2 極線矯正與立體匹配

雙目的核心難點(diǎn)在于立體匹配——要在左圖中找到一個(gè)點(diǎn),然后在右圖中找到完全相同的那個(gè)點(diǎn)。

被動(dòng)雙目 (Passive Stereo):純靠圖像紋理。

死穴:遇到白墻(無(wú)紋理)或重復(fù)紋理(瓷磚地、綠草地),算法無(wú)法匹配,深度圖會(huì)出現(xiàn)空洞。

主動(dòng)雙目 (Active Stereo):為了解決白墻問(wèn)題,在兩個(gè)攝像頭中間加一個(gè)紅外投影儀,向墻面打上偽隨機(jī)散斑。這樣即使是白墻也有了“人造紋理”。

4 結(jié)構(gòu)光:工業(yè)級(jí)的毫米精度

結(jié)構(gòu)光是3D感知的“顯微鏡”,它在近距離(<1.5米)擁有無(wú)與倫比的精度,是機(jī)械臂抓取和FaceID人臉識(shí)別的首選。

4.1 技術(shù)原理:編碼光場(chǎng)的形變

結(jié)構(gòu)光不依賴(lài)兩個(gè)攝像頭找不同,而是通過(guò)一個(gè)投影儀投射特定的編碼圖案,再用一個(gè)攝像頭拍攝圖案在物體表面的形變。

  • 格雷碼 (Gray Code):投射一系列黑白相間的條紋。精度高,魯棒性好,但需要連續(xù)投射多幀圖像,因此只能測(cè)靜止物體。
  • 相移法 (Phase Shift):投射正弦波條紋,通過(guò)相位的偏移計(jì)算深度。精度可達(dá)微米級(jí),但同樣怕動(dòng)。
  • MEMS散斑 (Speckle):如第一代Kinect和iPhone前置。投射數(shù)萬(wàn)個(gè)離散光點(diǎn)。只需要一幀圖像,適合動(dòng)態(tài)場(chǎng)景,但精度略低于條紋法。

4.2 致命弱點(diǎn)與應(yīng)用局限

結(jié)構(gòu)光是典型的“室內(nèi)溫室花朵”。

  • 陽(yáng)光致盲:室外陽(yáng)光中的紅外成分遠(yuǎn)強(qiáng)于投影儀的功率,會(huì)瞬間淹沒(méi)編碼圖案,導(dǎo)致室外完全失效。
  • 距離限制:光能隨距離衰減,超過(guò)2米后信噪比急劇下降。
  • 多機(jī)干擾:兩個(gè)機(jī)器人的結(jié)構(gòu)光投影儀如果照在一起,圖案會(huì)互相干擾,導(dǎo)致誰(shuí)也算不準(zhǔn)。

4.3 具身智能中的應(yīng)用

在人形機(jī)器人中,結(jié)構(gòu)光通常安裝在手腕處 (Eye-in-Hand)。當(dāng)機(jī)器人伸手去抓一個(gè)反光的螺絲釘,頭部的相機(jī)可能看不清細(xì)節(jié),但手腕上的結(jié)構(gòu)光可以提供亞毫米級(jí)的操作引導(dǎo)。

5 ToF:光速的測(cè)量藝術(shù)

ToF(飛行時(shí)間)技術(shù)是近年來(lái)增長(zhǎng)最快的領(lǐng)域,得益于蘋(píng)果在iPad/iPhone Pro上的引入,ToF已經(jīng)從工業(yè)神壇走向了消費(fèi)電子。但“ToF”是一個(gè)大筐,里面裝了兩種截然不同的物理原理:iToF和dToF。

5.1 iToF (Indirect ToF):相位的游戲

iToF并不直接掐表測(cè)量時(shí)間,而是發(fā)射連續(xù)的調(diào)制光波(如正弦波),測(cè)量回波與發(fā)射波之間的相位差 (Phase Shift)。

優(yōu)點(diǎn):使用標(biāo)準(zhǔn)的CMOS工藝即可制造,分辨率可以做得很高(如VGA、百萬(wàn)像素),成本相對(duì)較低。

缺點(diǎn):

  • 相位模糊:就像時(shí)鐘轉(zhuǎn)了一圈回到原點(diǎn),如果物體距離超過(guò)了調(diào)制波長(zhǎng)(例如5米),相位會(huì)發(fā)生卷繞(Wrapping),導(dǎo)致5.1米被誤判為0.1米。
  • 多徑干擾:光線打到墻角反彈多次回到傳感器,會(huì)導(dǎo)致測(cè)量出的角落是圓角的,這對(duì)機(jī)器人沿墻走是致命的誤差。

5.2 dToF (Direct ToF):光子秒表

dToF是真正的“掐表計(jì)時(shí)”。它發(fā)射極短的激光脈沖(納秒級(jí)),利用SPAD(單光子雪崩二極管)捕捉反射回來(lái)的第一個(gè)光子,直接計(jì)算。

優(yōu)點(diǎn):

  • 抗干擾強(qiáng):脈沖能量極其集中,能穿透陽(yáng)光。
  • 無(wú)模糊距離:測(cè)到多少就是多少,沒(méi)有相位卷繞。
  • 低功耗:激光器大部分時(shí)間在休息。

技術(shù)突破:以前dToF很難做高分辨率,但隨著Sony等廠商攻克了SPAD陣列堆疊技術(shù),現(xiàn)在已經(jīng)有了幾萬(wàn)像素的dToF傳感器(如iPhone LiDAR)。

5.3 選型指南:iToF vs dToF

  • 選iToF:如果你需要近距離(<5米)的高分辨率3D建模,且主要在室內(nèi)使用(如掃地機(jī)避障)。
  • 選dToF:如果你需要中遠(yuǎn)距離(>5米),或者經(jīng)常在室外工作,或者需要極低的功耗(如無(wú)人機(jī)定高)。

6 激光雷達(dá) (LiDAR):構(gòu)建上帝視角

激光雷達(dá)本質(zhì)上是dToF技術(shù)在空間上的掃描延伸。它是所有傳感器中真值屬性最強(qiáng)的——無(wú)論算法多爛,激光雷達(dá)掃到的墻一定就在那里,不會(huì)像視覺(jué)那樣把白墻看成無(wú)限遠(yuǎn)。

6.1 技術(shù)演進(jìn):從機(jī)械旋轉(zhuǎn)到固態(tài)芯片

LiDAR是目前硬件迭代最激烈的戰(zhàn)場(chǎng),存在多條技術(shù)路線博弈。

機(jī)械旋轉(zhuǎn)式 (Mechanical)

  • 形態(tài):經(jīng)典的“全家桶”,頭部360度旋轉(zhuǎn)。
  • 原理:垂直排列多束激光器,通過(guò)馬達(dá)帶動(dòng)整體旋轉(zhuǎn)進(jìn)行掃描。
  • 局限:成本高昂,機(jī)械部件壽命短,體積大,難以集成進(jìn)人形機(jī)器人的體內(nèi)。目前正逐漸被邊緣化,主要用于Robotaxi開(kāi)發(fā)驗(yàn)證。

混合固態(tài) (MEMS/轉(zhuǎn)鏡)

  • 形態(tài):只有內(nèi)部微小的鏡面在動(dòng),外觀不動(dòng)。
  • 原理:利用MEMS微振鏡反射激光束進(jìn)行掃描。
  • 優(yōu)勢(shì):車(chē)規(guī)級(jí)可靠性,成本可控,體積小。是目前Unitree B2、CyberDog 2等高端四足機(jī)器人的首選。
  • 視場(chǎng)角限制:通常只有120°的前向視角,不像機(jī)械式那樣自帶360°。因此機(jī)器人通常需要前后各裝一個(gè),甚至側(cè)面也要裝。

純固態(tài) (Flash/OPA)

  • Flash LiDAR:就像拍照一樣,一次閃光照亮全場(chǎng),用SPAD面陣接收。完全無(wú)運(yùn)動(dòng)部件,極其耐造。但受限于功率密度,目前探測(cè)距離較短(<50米),常作為補(bǔ)盲雷達(dá)。
  • OPA (光學(xué)相控陣):利用硅光芯片調(diào)節(jié)光波相位來(lái)改變光束方向,是LiDAR的終極形態(tài)(類(lèi)似相控陣?yán)走_(dá))。目前仍處于實(shí)驗(yàn)室階段,良率和旁瓣干擾是難題。

6.2 波長(zhǎng)之爭(zhēng):905nm vs 1550nm

  • 905nm:硅基探測(cè)器,成本低,產(chǎn)業(yè)鏈成熟。但為了人眼安全(不燒傷視網(wǎng)膜),發(fā)射功率受限,探測(cè)距離難做遠(yuǎn)。
  • 1550nm:銦鎵砷(InGaAs)探測(cè)器,成本極高。但該波長(zhǎng)會(huì)被人眼角膜吸收,不傷視網(wǎng)膜,因此可以肆無(wú)忌憚地加大功率,看透雨霧和長(zhǎng)距離(>250米)。

6.3 3D點(diǎn)云與SLAM

LiDAR輸出的是點(diǎn)云 (Point Cloud)——數(shù)百萬(wàn)個(gè)(x,y,z,反射率)坐標(biāo)點(diǎn)。

  • LOAM/LIO-SAM算法:機(jī)器人利用點(diǎn)云進(jìn)行SLAM(即時(shí)定位與建圖),精度可達(dá)厘米級(jí)。這是視覺(jué)SLAM(VSLAM)難以比擬的穩(wěn)定性。
  • 痛點(diǎn):點(diǎn)云數(shù)據(jù)稀疏,缺乏顏色和紋理。雖然知道前面有個(gè)物體,但很難知道它是紙箱還是石頭。

7 事件相機(jī):神經(jīng)形態(tài)的毫秒級(jí)反應(yīng)

如果說(shuō)前面的傳感器都在模仿“眼睛的結(jié)構(gòu)”,事件相機(jī)模仿的是視網(wǎng)膜的神經(jīng)元機(jī)制。這是一個(gè)可能顛覆未來(lái)5年機(jī)器視覺(jué)的黑科技。

7.1 技術(shù)原理:只關(guān)注變化

傳統(tǒng)相機(jī)不管畫(huà)面動(dòng)不動(dòng),都按30fps傻傻地拍照。事件相機(jī)(Event Cameras)的每個(gè)像素都是獨(dú)立的神經(jīng)元。只有當(dāng)光照強(qiáng)度變化超過(guò)閾值時(shí),該像素才會(huì)被激活,發(fā)送一個(gè)信號(hào)(Event)。

  • 輸出:不是圖像,而是連續(xù)的事件流,其中是微秒級(jí)的時(shí)間戳,是極性(變亮還是變暗)。

7.2 降維打擊的優(yōu)勢(shì)

  • 極低延遲:響應(yīng)速度是微秒級(jí)的(<1ms),比傳統(tǒng)相機(jī)快100倍以上。非常適合捕捉高速運(yùn)動(dòng)(如接球、躲避飛來(lái)的物體)。
  • 超高動(dòng)態(tài)范圍 (HDR):>120dB。能同時(shí)看清隧道內(nèi)的黑暗和出口的強(qiáng)光,這對(duì)于機(jī)器人進(jìn)出室內(nèi)外至關(guān)重要(40)。
  • 無(wú)運(yùn)動(dòng)模糊:因?yàn)闆](méi)有“曝光時(shí)間”的概念,高速旋轉(zhuǎn)的扇葉也能看得清清楚楚。

7.3 應(yīng)用困境

雖然物理性能無(wú)敵,但算法太難了?,F(xiàn)有的CNN、Transformer都是為幀圖像設(shè)計(jì)的,無(wú)法直接處理異步的事件流。目前主要用于極速避障和視覺(jué)伺服,尚未成為主攝。

8 未來(lái)趨勢(shì)預(yù)測(cè)

具身智能的視覺(jué)感知,本質(zhì)上是在用硅基的材料去逼近碳基的奇跡。

在這個(gè)技術(shù)爆炸的時(shí)代,沒(méi)有最完美的傳感器,只有最適合場(chǎng)景的感知組合。站在2025年的節(jié)點(diǎn),具身智能的感知系統(tǒng)正處于收斂的前夜,做一下預(yù)測(cè):

  1. LiDAR的退守與進(jìn)化:隨著視覺(jué)算法的進(jìn)步,高線束機(jī)械LiDAR將徹底退出人形機(jī)器人市場(chǎng)。取而代之的是低成本、芯片化的固態(tài)LiDAR(Flash/OPA)。
  2. 端到端感知的崛起:傳統(tǒng)的“感知-規(guī)劃-控制”模塊化架構(gòu)正在瓦解。未來(lái)的傳感器數(shù)據(jù)可能不再生成點(diǎn)云或地圖,而是直接輸入到端到端大模型(E2E Model),直接輸出電機(jī)扭矩。
  3. 事件相機(jī)的爆發(fā):隨著機(jī)器人運(yùn)動(dòng)能力的提升(跑酷、接飛盤(pán)),傳統(tǒng)相機(jī)的幀率將成為瓶頸,事件相機(jī)必將成為高性能機(jī)器人的標(biāo)配。

注:本文引用的數(shù)據(jù)和參數(shù)基于2024-2025年的行業(yè)公開(kāi)資料及技術(shù)白皮書(shū)。

本文由 @杰克說(shuō)AI 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!