x7x7x7任意噪,国产欧美丝袜在线二蜜芽tv

人類約70%的信息是通過人眼感知獲取的，未來的人形機器人也將和人類一樣，大量信息都將通過視覺感知獲取。視覺技術(shù)是機器人獲取環(huán)境信息的重要途經(jīng),隨著國內(nèi)外人形機器人的陸續(xù)發(fā)布，人形機器人的視覺感知技術(shù)越來越重要了。

人形機器人對環(huán)境感知有寬視場、高速度和高精度的各種要求，但是目前技術(shù)路徑尚未完全確定，各家都有自己的解決方案。特斯拉 Optimus的3D傳感模塊以多目視覺為主，全身搭載8個攝像頭，自研芯片FSD，純視覺方案硬件成本低，對軟件算法要求高。國內(nèi)廠商多采用3D相機+激光雷達(dá)方案，優(yōu)必選WALKERX的視覺模塊采用四目視覺+雙RGBD，小米CyberOne的Mi-Sense視覺系統(tǒng)采用iToF+RGB，達(dá)闥采用3D深度相機+RGB單目攝像頭+TOF相機+激光雷達(dá)的綜合方案，宇樹采用3D激光雷達(dá)+深度相機方案，追覓采用ToF+結(jié)構(gòu)光，智元A1采用 RGBD 相機。

究竟以上技術(shù)路徑是如何實現(xiàn)的？各種視覺方案又有哪些差異點？今天筆者將和大家一起學(xué)習(xí)探討人形機器人的視覺系統(tǒng)是如何實現(xiàn)對感知和交互的，以便大家對人形機器人視覺技術(shù)發(fā)展有更多了解和判斷。

一、人形機器人視覺方案

1.1、特斯拉人形視覺方案

特斯拉的純視覺傳感器方案的實現(xiàn)，離不開多任務(wù)學(xué)習(xí)HydraNets神經(jīng)網(wǎng)絡(luò)架構(gòu)。每輛特斯拉汽車擁有8個環(huán)繞車身、覆蓋周圍360°的攝像頭，來獲取交通信號燈、信號牌、匝道、路緣等周邊信息，為神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)提供了絕佳條件。

特斯拉開發(fā)了“矢量空間”（Vector Space）技術(shù)，同時兼具了非凸優(yōu)化算法（Non-convex）、高維度兩大優(yōu)勢。該技術(shù)可以通過8個攝像頭輸入的數(shù)據(jù)為基礎(chǔ)繪制3D鳥瞰視圖，形成4D的空間和時間標(biāo)簽的“路網(wǎng)”以呈現(xiàn)道路等信息，幫助車輛把握駕駛環(huán)境，更精準(zhǔn)的尋找最優(yōu)駕駛路徑。同時，特斯拉自主研發(fā)了基于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方式。

圖| FSD計算機視覺技術(shù)

來源：特斯拉AI Day

特斯拉Optimus搭載了與特斯拉車輛相同的FSD技術(shù)以及Autopilot相關(guān)神經(jīng)網(wǎng)絡(luò)技術(shù)，其大腦使用的是自研的AI訓(xùn)練 Dojo D1芯片和超級計算機 Dojo。特斯拉FSD系統(tǒng)已可以實現(xiàn)每1.5毫秒2500次搜索的超高效率，預(yù)測可能出現(xiàn)的各種情況，并在其中找到最安全、最舒適、最快速的自動駕駛路徑。在經(jīng)過完全自動駕駛能力系統(tǒng)的實際應(yīng)用驗證后，特斯拉強大的FSD計算機視覺技術(shù)已可直接應(yīng)用于機器人。

圖|特斯拉FSD芯片+D1芯片

來源：特斯拉AI Day

圖|小米Mi Sense 視覺技術(shù)

來源：小米官網(wǎng)

小米CyberOne的Mi-Sense視覺系統(tǒng)采用iToF+RGB方案。歐菲光同步發(fā)布自研的機器視覺深度相機模塊，主要由 iToF 模組、RGB 模組、可選的 IMU 模塊組成，產(chǎn)品在測量范圍內(nèi)精度高達(dá) 1%，應(yīng)用場景廣泛，可通過第三方實驗室 IEC 60825-1 認(rèn)證，滿足激光安全 Class1 標(biāo)準(zhǔn)。iToF 技術(shù)是現(xiàn)在主流的 3D 視覺感知技術(shù)之一，歐菲光研發(fā)基于 iToF+RGB 深度測量技術(shù)的 3D 智能深度相機。

iToF無法獲取物體的顏色紋理信息，RGB相機可獲取物體豐富的顏色紋理信息，將RGB與iToF相結(jié)合既能得到物體的深度信息，又可獲取物體的顏色紋理信息，這可大大拓展其應(yīng)用領(lǐng)域。RGB信息可用于物體檢測識別，深度信息可用于建圖避障等，RGB+iToF在諸多領(lǐng)域可實現(xiàn)1+1>2的作用。

1.3、優(yōu)必選人形視覺方案

圖|優(yōu)必選人形視覺方案

來源：優(yōu)必選官網(wǎng)

優(yōu)必選WALKERX的視覺模塊創(chuàng)新升級四目系統(tǒng)及雙RGBD傳感器，采用胸部四目視覺，頭部+腰部雙RGBD，以及腰部4*毫米波雷達(dá)避障。

SLAM視覺導(dǎo)航自主路徑規(guī)劃：基于多目視覺傳感器的三維立體視覺定位采用Coarse-to-fine的多層規(guī)劃算法，第一視角實景AR導(dǎo)航交互及2.5D立體避障技術(shù)實現(xiàn)動態(tài)場景下全局最優(yōu)路徑自主導(dǎo)航。實現(xiàn)定位精度10cm，導(dǎo)航精度20cm，精定位精度1cm。

基于深度學(xué)習(xí)的物體檢測與識別算法、人臉識別算法和跨風(fēng)格人臉數(shù)據(jù)生成技術(shù)，可在復(fù)雜環(huán)境中識別人臉、手勢、物體等信息，豐富準(zhǔn)確地理解和感知外部環(huán)境。

1.4、達(dá)闥人形視覺方案

圖|達(dá)闥人形視覺方案

來源：達(dá)闥官網(wǎng)

達(dá)闥人形頭部+腰部兩個3D深度相機，前胸和后胸兩個RGB單目攝像頭，下半身暫時單點TOF相機+激光雷達(dá)的方案。

1.5、宇樹人形視覺方案

圖|宇樹人形視覺方案

來源：宇樹官網(wǎng)

宇樹目前采用頭部3D激光雷達(dá)+深度相機方案，相對最為簡單。

二、視覺技術(shù)分析

2.1、3D 視覺技術(shù)

在過去的數(shù)十年中，2D 成像技術(shù)有了長足的發(fā)展，分辨率從幾十萬像素發(fā) 展到現(xiàn)在的上億像素，色彩還原更真實，逆光環(huán)境下也能通過 HDR（高動態(tài)光照渲染）技術(shù)提升圖像質(zhì)量。然而，2D 圖像僅能夠提供紋理（色彩）信息，無法提供實現(xiàn)更精準(zhǔn)識別、追蹤等功能所需的空間形貌、幾何尺寸、位姿等信息。

3D視覺技術(shù)相對與2D技術(shù)提供了更豐富的被攝目標(biāo)信息，可以在六個自由度（x、y、z、旋轉(zhuǎn)、俯仰、橫擺）上定位被攝目標(biāo)，還原人眼視角的三維立體世界?；?D視覺傳感器采集的信息，不但有紋理（色彩）信息，還增加深度信息，也就是視場內(nèi)的空間幾何尺寸信息。這樣圍繞著物體、空間掃描一圈，就能得到點云圖和精準(zhǔn)的“1:1”還原的3D 模型。而有了這些信息作為輸入，應(yīng)用場景會大大增多，性能也會大幅提升。

圖|空間三維測量

來源：奧比中光官網(wǎng)

3D機器視覺技術(shù)分為兩個部分，即3D重構(gòu)技術(shù)和3D數(shù)據(jù)分析算法，前者獲取3D信息、重構(gòu)3D場景，后者對3D場景中的信息進(jìn)行理解。目前，3D重構(gòu)的常用技術(shù)類型有：被動3D視覺技術(shù)（分為單目3D、雙目3D 和多目3D，即分別使用一個、兩個和兩個以上相機組成立體視覺系統(tǒng)）、激光3D掃描技術(shù)、結(jié)構(gòu)光3D技術(shù)、TOF相機技術(shù)等。3D重構(gòu)獲得的表征數(shù)據(jù)，包括點云、體素、網(wǎng)格圖、深度圖等，通過3D數(shù)據(jù)分析算法進(jìn)行濾波、特征提取、分割、語義理解，從而實現(xiàn)識別、測量、定位和檢測等功能。

表1 3D視覺感知技術(shù)差異

來源：奧比中光

2.2、3D視覺常用技術(shù)對比

3D 視覺成像技術(shù)可分為光學(xué)和非光學(xué)成像方法。目前應(yīng)用最多的還是光學(xué)方法，包括：結(jié)構(gòu)光、飛行時間(ToF)、多目視覺激光掃描法、激光散斑法、干涉法、照相測量法、激光跟蹤法等等，常用的為前三種方法。

圖|三種3D視覺方案原理

來源：網(wǎng)絡(luò)、知乎、與非研究院整理

2.2.1、結(jié)構(gòu)光

結(jié)構(gòu)光：通過光學(xué)投射模塊將具有編碼信息的結(jié)構(gòu)光投射到物體表面，在被測物表面形成光條圖像。圖像采集系統(tǒng)采集光條圖像后，通過算法處理得出被測物表面的三維輪廓數(shù)據(jù)，以還原目標(biāo)物體三維空間信息。結(jié)構(gòu)光技術(shù)是一種主動的三維測量技術(shù)。

特點：由于結(jié)構(gòu)光是主動光，好處是昏暗環(huán)境和夜間可用。不需要根據(jù)場景的變化而有變化，降低了匹配的難度。但顯然在強光環(huán)境中會受到干擾，室外基本不可用。另外，由于主動結(jié)構(gòu)光是帶編碼的，所以多個結(jié)構(gòu)光相機同時使用也是有問題的。在實測中，結(jié)構(gòu)光在角度比較小的側(cè)面上反射比較嚴(yán)重，經(jīng)常出現(xiàn)比較大的黑洞，當(dāng)然黑色物體和玻璃是結(jié)構(gòu)光的大 BUG，一個吸光一個透光。

2.2.2、立體視覺法

立體視覺法：指從不同的視點獲取兩幅或多幅圖像重構(gòu)目標(biāo)物體3D結(jié)構(gòu)或深度信息，目前立體視覺 3D 可以通過單目、雙目、多目實現(xiàn)。雙目機器視覺是指使用兩個 RGB 彩色相機采集圖像，并通過后端的雙目匹配和三角測量等算法，計算得到深度圖的技術(shù)方法。雙目技術(shù)使用的是物體本身的特征點，由于每一次雙目匹配都面對不同的圖像，都需要重新提取特征點，計算量非常大。雙目是一種被動的三維測量技術(shù)。

特點：硬件復(fù)雜度較低，弱光或目標(biāo)特征不明顯時幾乎不可用。同時，雙目相機的運算復(fù)雜度也非常高，對硬件計算性能要求極高。因為計算能力要求高，雙目相機極少在嵌入式系統(tǒng)設(shè)備中使用，雙目相機在通用場景中表現(xiàn)也并不太好，像諸如 slam 導(dǎo)航等應(yīng)用，但在工業(yè)自動化領(lǐng)域和 x86 系統(tǒng)中,雙目相機應(yīng)用廣泛，因為工業(yè)自動化中，雙目相機只要解決特定場景中的特定問題。

2.2.3、飛行時間(ToF)

飛行時間(ToF)：由發(fā)射和反射光信號之間的時間延遲來測量，給定固定的光速。為了精確地測量時延，經(jīng)常使用短光脈沖。這種技術(shù)跟 3D 激光傳感器原理基本類似，只不過3D 激光傳感器是逐點掃描，而TOF 相機則是同時得到整幅圖像的深度信息。

特點：和結(jié)構(gòu)光方式相比，ToF 并不需要對光的圖案做復(fù)雜解析，只需要反射回來即可，這大大的提高了魯棒性，深度信息還原度比結(jié)構(gòu)光好很多，點云的完整性更好。主要表現(xiàn)在：深度圖質(zhì)量要高于結(jié)構(gòu)光，抗強光的干擾能力也更強一些，精度也要更高一些。對于玻璃，是光技術(shù)的死穴，只能靠其他技術(shù)來彌補了。ToF速度高，但精度只有毫米級。ToF 技術(shù)的難度較高，成本也較高。

2.3、3D視覺傳感器

3D 視覺傳感器是由深度引擎芯片、深度引擎算法、通用或?qū)Ｓ酶泄庑酒?、專用光學(xué)系統(tǒng)、驅(qū)動及固件等組成的精密光學(xué)測量系統(tǒng)，可以采集并輸出“人體、物體和空間”的三維矢量信息。

圖|視覺傳感器結(jié)構(gòu)

來源：奧比中光招股書

三、國內(nèi)外主要3D視覺企業(yè)

消費級競爭對手主要為蘋果、華為、微軟、索尼等科技巨頭，也包括英飛凌、瑞芯微、華捷艾米等企業(yè)。微軟是業(yè)內(nèi)最早推出消費級3D視覺傳感器的企業(yè)，已推出結(jié)構(gòu)光、iToF 技術(shù)的 3D 視覺傳感器；蘋果、華為主要自研 3D視覺傳感器以服務(wù)于自家產(chǎn)品；索尼、三星借助自身在感光芯片方面的實力，推出iToF、dToF 技術(shù)相應(yīng)的感光芯片產(chǎn)品。英飛凌、瑞芯微、奧比中光、華捷艾米也向市場推出了各自研發(fā)的 3D 視覺傳感器產(chǎn)品。

表|3D視覺傳感器主要企業(yè)和產(chǎn)品

來源：奧比中光招股書（已上市）

目前3D視覺市場主要還是以外資品牌占據(jù)市場主流，蘋果、微軟、索尼、英特爾、三星等自研iTOF芯片或雙目3D芯片為主。國內(nèi)奧比中光市占率主導(dǎo)地位，芯片為自研，華為、瑞芯微也相繼有自研芯片推出，華捷艾米、歐菲光等也已經(jīng)開始切入相關(guān)市場。

四、總結(jié)

人形機器人視覺方案目前主要以結(jié)構(gòu)光、雙目或多目RGB、TOF等的組合方案為主。國外大廠已經(jīng)較早的布局和應(yīng)用，國內(nèi)市場還在逐步打開市場空間。

現(xiàn)階段國內(nèi)外人形機器人產(chǎn)業(yè)還處于0-1的階段，視覺方案的選擇比較多樣化，隨著出貨量的增長，技術(shù)的迭代升級，未來視覺方案也將會逐步優(yōu)化定型。3D視覺作為人形機器人最優(yōu)的視覺方案，也會跟隨人形機器人實現(xiàn)蓬勃發(fā)展。

器件型號	數(shù)量	器件廠商	器件描述	ECAD模型	參考價格	更多信息
0190050010	1	Molex	Push-On Terminal, 5mm2, ROHS COMPLIANT		$0.72	查看
MBR0520LT3G	1	onsemi	500 mA, 20 V, Schottky Power Rectifier, Surface Mount, SOD-123 2 LEAD, 10000-REEL	ECAD模型下載ECAD模型	$0.35	查看
VSSRC20AA250201UF	1	Vishay Intertechnologies	Resistor/Capacitor Network, RC NETWORK, T-FILTER, 1W, 25ohm, 0.0002uF, SURFACE MOUNT, SSOP-20, SSOP, ROHS COMPLIANT		暫無數(shù)據(jù)	查看

器件型號

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊

ECAD模型

風(fēng)險等級

參考價格

更多信息

0190050010

Molex

Push-On Terminal, 5mm2, ROHS COMPLIANT