《奧本海默》導演諾蘭,近期在一篇訪談中談到,他認識的幾位ChatGPT核心工程師,就經(jīng)歷了一個“奧本海默時刻”。
有人調(diào)侃ChatGPT出現(xiàn)后,機器人負責作詩畫畫,人類仍舊洗碗搬磚,這種“本末倒置”預(yù)示著人們即將進入為機器人打工的時代。也有一些人認為,就像原子彈第一次試爆時刻,面臨著鏈式反應(yīng)失控的巨大風險,人類其實并不完全了解越來越聰明的AI會開啟怎樣的未來。其實,先不論種種潛在風險,AI的變革意義堪比原子彈問世,特別是在機器人這個交叉領(lǐng)域。
機器人正迎來“奧本海默” 時刻?
如果說智能手機加速了信息時代的黃金發(fā)展,那么下一個引領(lǐng)人類從信息時代進階到智能時代的賽道或者現(xiàn)象級別品類會是什么?人形機器人是其中之一嗎?
人形機器人通常是指模仿人類物理形態(tài)以及具體行為的智能機器人,相比于傳統(tǒng)機器人,人形機器人的核心突破在于人機交互,即能夠聽懂人類語言指令并進行分析推斷以及決策執(zhí)行。
隨著機器人產(chǎn)業(yè)的推進、ChatGPT等AI技術(shù)的加速演進,人形機器人展現(xiàn)了極大的潛能。特斯拉是人形機器人熱潮的直接推動者。從2021年8月首次公布人形機器人項目,到2022年9月展示原型機,再到2023年5月發(fā)布Optimus,特斯拉的人形機器人已經(jīng)具備了自然行走、電機扭矩控制、力度控制、環(huán)境識別及記憶等功能,展現(xiàn)了極快的產(chǎn)品迭代能力。
馬斯克強調(diào),現(xiàn)在是推進研發(fā)人形機器人的絕佳機會,因為可以共享大量自動駕駛領(lǐng)域的軟硬件技術(shù)成果,Optimus將使用與其電動汽車相同的全自動駕駛系統(tǒng)(FSD)。未來,人形機器人將會是特斯拉長期價值的重要來源。
國內(nèi)人形機器人方面,小米、優(yōu)必選等代表廠商相繼推出了最新產(chǎn)品。今年2月,華為天才少年稚暉君創(chuàng)立了智元機器人,短短半年就完成了多輪融資,并在8月推出了首款產(chǎn)品。
稚暉君認為,人形雙足機器人是人類環(huán)境中最為通用的終極形態(tài)。物理世界中各種場景、設(shè)備、任務(wù)、工具,都是為人體形態(tài)量身打造的,只有機器人像人,具備類似的身體結(jié)構(gòu)和能力,才能夠幫助機器人更好地融入人類生活和工作環(huán)境。
疊加AI大模型、關(guān)鍵軟硬件突破,人形機器人很可能成為新的風口,再度引爆全球。以下是對國內(nèi)外有代表性的人形機器人進展和特點梳理:
圖:國內(nèi)外主要人形機器人進展及特點(與非網(wǎng)據(jù)公開資料整理)
敲開“具身智能”時代大門
大模型到來之前,機器人都是“專用設(shè)備”,人形機器人則向通用機器人更近一步。業(yè)界甚至認為人形機器人作為“具身智能”的理想載體,有望引領(lǐng)未來產(chǎn)業(yè)變革。
今年5月,英偉達創(chuàng)始人黃仁勛表示,下一波人工智能浪潮將是“具身人工智能(embodied AI)”,即能夠理解、推理、并與物理世界互動的智能系統(tǒng)。
與過去通過“喂數(shù)據(jù)”指揮機器人行動不同,具身智能的做法是讓機器人自己學習如何與環(huán)境交互。具身智能機器人與人類的交流將不再是機械式的查字典式問答,而是結(jié)合個性化溝通、任務(wù)理解、交互、規(guī)劃和實體執(zhí)行的新局面。有業(yè)界專家提出:以ChatGPT為代表的大語言模型并不是AI的最終形態(tài),比它更高級的是多模態(tài)的具身智能。
那么,為什么認為人形機器人是具身智能的最佳載體?
一直以來,傳統(tǒng)機器人發(fā)展的痛點在于不智能、不通用。不智能主要體現(xiàn)在傳統(tǒng)機器人不能像人一樣感知和思考,痛點在于關(guān)鍵算法尚未突破;不通用則體現(xiàn)在需求場景應(yīng)用受限,例如清潔機器人、物流機器人等概念具有明確的功能屬性和場景屬性。
而人形機器人具備三大因素,體現(xiàn)出了和傳統(tǒng)機器人的本質(zhì)區(qū)別:第一,像人一樣有“大腦”,能夠?qū)W習和交互;第二,像人一樣有完整的軀干;第三,大腦能對身上各部位各器官進行控制。這三方面分別對應(yīng):AI 大模型(交互模塊)、視覺傳感及感應(yīng)器等(感知模塊)、電機執(zhí)行器(運動控制模塊)。
最重要的是,從軟硬件層面來看,人形機器人在迎來雙重契機:軟件方面,得益于在計算機視覺、語音識別、導航和路徑規(guī)劃、智能決策與行為規(guī)劃等方面的積累和突破,人形機器人的感知、理解、決策、互動能力顯著增強;硬件方面,由于與工業(yè)機器人、汽車等產(chǎn)業(yè)有重合的零部件產(chǎn)業(yè)鏈,因此有望更快實現(xiàn)降本提質(zhì)。
未來,在機器人和AI的交叉領(lǐng)域,具身智能具有非常重要的意義,可以說是未來發(fā)展的重要方向和關(guān)鍵節(jié)點。它能夠讓機器人更加靈活、自然地與人類交互和協(xié)作;更好地適應(yīng)復(fù)雜的環(huán)境,根據(jù)環(huán)境反饋和自身狀態(tài)進行實時決策和調(diào)整;具身智能可以為AI的發(fā)展提供更加強大的感知和理解能力,進一步提升AI的實際應(yīng)用能力。
潛在萬億賽道,主要挑戰(zhàn)?
馬斯克今年在特斯拉股東大會表示,人形機器人和人的比例可能約為2:1,也就是說,未來對人形機器人的需求量可能是100億至200億臺,距離2萬美金售價目標仍有大幅降價空間,未來將分階段迎來規(guī)模量產(chǎn)。
不過,由于應(yīng)用場景不足,再加上高技術(shù)、高成本門檻,人形機器人仍處于早期階段。目前,人形機器人功能相對簡單、僅實現(xiàn)了初步智能,在一些入門級應(yīng)用場景中,拼不過更加成熟且成本低廉的機器人。
目前,多數(shù)人形機器人都聚焦在“位控”和“力控”兩類控制模式上發(fā)展,還未和深度學習、強化學習等技術(shù)深度結(jié)合,在商業(yè)應(yīng)用上還需攻克穩(wěn)定性問題。 此外,一個最大的瓶頸就是制造成本高昂,而這有賴于大規(guī)模生產(chǎn)的基礎(chǔ)及多方位的技術(shù)突破,這也進一步導致人形機器人難以推廣。
就以正在沖擊“人形機器人第一股”的優(yōu)必選來說,它號稱是全球首家將雙足真人尺寸人形機器人的成本降低至10萬美元以下的公司,實現(xiàn)了國內(nèi)首款大型人形機器人的商業(yè)化落地。
不過,據(jù)優(yōu)必選招股書顯示,2021年優(yōu)必選僅售出1臺真人尺寸的人形機器人Walker-2用于教育,2022年前9個月售出2臺Walker-X用于通用商業(yè)目的。2020年至2022年,優(yōu)必選Walker系列收入分別為230萬、1280萬、5185萬,收入占比分別為0.3%、1.6%、5.1%。相形之下,消費級機器人硬件及解決方案才是新的增長點,2020年至2022年,收入占比由8.0%提升至33.6%。
如何推動人形機器人盡早成熟、走向大規(guī)模應(yīng)用?業(yè)內(nèi)認為可以參考智能手機發(fā)展歷程,即前期主要由硬件技術(shù)進步推動,而隨著設(shè)備性能提升和功能增加,給內(nèi)容和應(yīng)用創(chuàng)新帶來更多可能,從而步入生態(tài)壯大發(fā)展。
結(jié)合這一軌跡,核心硬件應(yīng)該是率先突破的領(lǐng)域。一方面,高性能零部件能實現(xiàn)更好的控制和交互能力;另一方面,有冗余空間的硬件方案才能實現(xiàn)高通用性和靈活性,有利于進一步壯大開發(fā)和應(yīng)用生態(tài)。
目前看來,人形機器人的核心零部件主要包括電機、減速器、傳感器等。
機器人關(guān)節(jié)處需多個電機驅(qū)動,電機驅(qū)動系統(tǒng)是將電能轉(zhuǎn)化為動能的物理系統(tǒng),主要由負載、控制裝置及電機等部分構(gòu)成,電機驅(qū)動芯片是電機驅(qū)動系統(tǒng)的大腦。在人形機器人中,電機需求廣泛分布。以特斯拉Optimus為例,其主體部分使用28個電機執(zhí)行器,用以完成抬手、屈膝等動作。
傳感器主要負責內(nèi)外部環(huán)境信息的監(jiān)控交互,按信息來源可分為內(nèi)部傳感器與外部傳感器。內(nèi)部傳感器主要負責收集自身運動、位置信息(如關(guān)節(jié)的線位移、角位移等幾何量,速度、角速度、加速度等),從而實現(xiàn)更精確可靠的智能控制。相比其他機械設(shè)備,機器人與外部環(huán)境的交互性更強,因此其需要利用外部傳感器實時監(jiān)測周圍環(huán)境參數(shù),輔助完成目標識別、決策判斷等過程。
此外還有3D視覺、線束與連接器等等,形成人形機器人的眼睛、神經(jīng)與血管等。
預(yù)計人形機器人發(fā)展初期,首先需要大力發(fā)展智能芯片、伺服系統(tǒng)、減速器等為主的通用性硬件,而隨著需求量增大,才能進一步形成高性能、低成本的標準方案。
此外,算法作為人形機器人的核心,需與硬件發(fā)展相匹配。當前的核心問題在于算法對運動能力的控制,包括本體平衡、行走的步態(tài)、手部抓取等規(guī)劃與控制。由于人形機器人需完成各種類似人類的動作,連續(xù)、復(fù)雜、需頻繁的物理交互且操作因果性多,算法難度甚至超過自動駕駛。這就更需要成熟的感知系統(tǒng)基礎(chǔ)、強大的算法分解任務(wù)和規(guī)劃動作、大模型的不斷仿真訓練、以及超強的算力支撐,才能形成算法與硬件匹配的持續(xù)迭代。
寫在最后
盡管人形機器人的運動能力已經(jīng)大大提升,但是到了實際商用落地環(huán)節(jié),仍然舉步維艱。波士頓動力幾次賣身易主,也側(cè)面證明了這一賽道商業(yè)化的艱難。
業(yè)界都期待一款可以實現(xiàn)巨大突破的機器人,像自動駕駛一樣,有感知、分析判斷能力、人機交互能力、對于3D世界的實時理解能力,以及精準的操作能力,而人形機器人有望擔此重任,也吸引了一批企業(yè)開始瞄準這個方向發(fā)力。
人形機器人能否打破機器人產(chǎn)業(yè)的固有困境,引領(lǐng)機器人產(chǎn)業(yè)一舉跨入新智能時代?屬于機器人的 “奧本海默”時刻,會出現(xiàn)嗎?