2024年剛開春,人形機(jī)器人明星款接踵而至。
不到一個月時間,特斯拉三次發(fā)布人形機(jī)器人擎天柱(Optimus)性能更新迭代視頻;谷歌DeepMind與斯坦福大學(xué)聯(lián)合推出的阿羅哈(Mobile Aloha)也兩次迭代更新;沉寂許久的波斯頓動力放出一段人形機(jī)器人Atlas拾起并搬運(yùn)汽車零部件的視頻;Figure將其人形機(jī)器人送進(jìn)了寶馬工廠。
隨后,英偉達(dá)、OpenAI相繼宣布開發(fā)機(jī)器人基礎(chǔ)大模型。2月23日,F(xiàn)igure宣布完成6.75億美元融資,同時達(dá)成與OpenAI共同開發(fā)下一代人形機(jī)器人模型的合作。一天后,英偉達(dá)宣布成立通用具身智能研究實(shí)驗(yàn)室GEAR,GEAR負(fù)責(zé)人范麟熙表示,未來每一臺移動的機(jī)器人都將是自主的機(jī)器人與模擬智能體,將像手機(jī)一樣無處不在。3月13日,F(xiàn)igure發(fā)布OpenAI大模型加持的機(jī)器人Figure 01演示視頻,能聽人話且可同時執(zhí)行兩種任務(wù)。
然而,一切并不是看上去那樣一帆風(fēng)順。與此同時,上述特斯拉與斯坦福大學(xué)的機(jī)器人視頻被質(zhì)疑造假:并非完全是機(jī)器人的自主行動而是有人遙控操作;而被ChatGPT加持的Figure 01也被要求再進(jìn)行一些“整形手術(shù)”。為何“領(lǐng)頭羊”機(jī)器人公司要在視頻上“動手腳”?人形機(jī)器人是虛假繁榮還是“真元年”已至?究竟什么在困擾人形機(jī)器人產(chǎn)業(yè)?
“形”之惑:要不要人形?
在被網(wǎng)友質(zhì)疑特斯拉擎天柱疊衣服視頻造假之后,特斯拉首席執(zhí)行官埃隆馬斯克在X上坦承了擎天柱的“不完美”:動作并非完全自主操作。斯坦福阿羅哈研究團(tuán)隊(duì)成員趙子豪也在社交媒體平臺展示了阿羅哈“笨手笨腳”的另一面:鍋放不進(jìn)櫥柜里,炒完蝦的碗沒放對位置。南京郵電大學(xué)管理學(xué)院講師劉德文認(rèn)為,阿羅哈的很多高級技能屬于遙操作(Teleoperation)而非自主技能。而且,就算基于自主技能執(zhí)行的任務(wù),阿羅哈現(xiàn)有的平均成功執(zhí)行率也不到90%,距離大規(guī)模商用還有很長一段路。
海銀資本創(chuàng)始合伙人王熠全表示,擎天柱和阿羅哈都是有人遙控的,演示視頻只是吸引了一波流量,人形機(jī)器人的這波熱潮主要體現(xiàn)在“演示和造勢”上。擁有明星機(jī)器人Digit 的美國敏捷機(jī)器人公司(Agility Robotics)總裁Shelton表示, 他們的解決方案中,沒有一種會采納五根手指、27個自由度(人的肩部到手,大概有27個自由度)?!拔覀兊囊恍└偁帉κ衷_聲明,他們使用五根手指基本上是為了品牌推廣?!盨helton說道。
阿羅哈研究團(tuán)隊(duì)成員符梓鵬在接受媒體采訪時坦言:“我們公開視頻和研究資料是希望能夠推動機(jī)器人領(lǐng)域的發(fā)展,吸引更多人才進(jìn)入這個行業(yè),解決很多科學(xué)和工程難題?!?/p>
“目前,所有的人形機(jī)器人都面臨一個悖論:越是非人形機(jī)器人不可的工作,使用范圍越窄;越是常見的應(yīng)用場景,越不需要人形機(jī)器人。所以打開機(jī)器人市場的關(guān)鍵因素不是長得像人,而是找到常見場景里的高頻需求?!?王熠全認(rèn)為,“擎天柱疊衣服,只需要機(jī)械臂就可以做到,很少有人需要一邊走動一邊疊衣服。同樣是做家務(wù),斯坦福的阿羅哈就不是人形的,只是輪式底盤加上機(jī)械臂,一樣可以干各種各樣的家務(wù)活?!?/p>
“人形”是否是機(jī)器人走向“通用”的必要選擇?王熠全的想法代表業(yè)界一部分觀點(diǎn)。特斯拉機(jī)器人團(tuán)隊(duì)的工程師楊碩也認(rèn)為,通用人形機(jī)器人其實(shí)是一個偽命題。“以人類生活中最普遍、研究最深入的機(jī)電系統(tǒng)——汽車為例,并沒有一款汽車能夠完全代替其他的汽車。跑車、轎車、卡車等車型適用于不同的應(yīng)用場景,不同的使用場景。未來,我們也需要應(yīng)用于各種場景的各種專用人形機(jī)器人。”
通用機(jī)器人:人形是最佳形態(tài)?
與此同時,業(yè)界專家與企業(yè)代表都更傾向于將更通用、更高階的機(jī)器人造得“像人”。圖靈獎獲得者、中國科學(xué)院院士、清華大學(xué)交叉信息研究院院長姚期智認(rèn)為,具身智能體應(yīng)該具備三個方面:身體、小腦和大腦。身體的具身必須要有足夠的硬件,具有傳感器和執(zhí)行器,小腦主導(dǎo)視覺、觸覺各種感知來控制身體,完成復(fù)雜的任務(wù),最后大腦部分主導(dǎo)上層的邏輯推理、決策、長時間的規(guī)劃,以實(shí)現(xiàn)用自然語言和其他的智能體、環(huán)境交流。
“關(guān)于身體部分,具身AGI(通用人工智能)最理想身體的形式,我們認(rèn)為應(yīng)該就是人形機(jī)器人。因?yàn)槿祟惖纳鐣h(huán)境主要是為人類而定制的,比如樓梯的結(jié)構(gòu)、門把手的高度、被子的形狀等,都是為了人類的形狀而定制。所以如果我們能夠打造一個泛應(yīng)用的通用機(jī)器人,人形是最好最適合的形態(tài),人形機(jī)器人能夠適應(yīng)人類的各種環(huán)境?!?姚期智說道。
除了無需為人形機(jī)器人設(shè)定特別的環(huán)境外,劉德文認(rèn)為,人形機(jī)器人擁有和人類相似的外表和行為,更有利于被人類接受;且人形機(jī)器人可以使用人類的工具,使得人類不用專門為機(jī)器人配備工具,這也方便機(jī)器人根據(jù)人類的演示進(jìn)行模仿學(xué)習(xí),進(jìn)而擴(kuò)展到多任務(wù)中。業(yè)內(nèi)人士普遍認(rèn)為,人形機(jī)器人是通用具身智能的最佳載體。
基于這些判斷,不難理解,為何特斯拉執(zhí)著于讓機(jī)器人更加貼近人形。馬斯克傳記作者沃爾特·艾薩克森透露,特斯拉正在探索將人形機(jī)器人擎天柱與超級計算機(jī)Dojo整合在一起,以創(chuàng)造“通用人工智能”。擎天柱最早在特斯拉工廠完成零部件搬運(yùn)等枯燥、危險系數(shù)高的工作。按照王熠全的說法,這樣的能力只需機(jī)械臂加移動輪盤就能實(shí)現(xiàn),但要讓機(jī)器人像人一樣自主干活,仍有很多挑戰(zhàn)。僅以行走為例,擎天柱三次更新的核心是行走,目前步速為每秒0.6米,與去年12月相比提升了30%,但也只是健康成年人步速的一半。
另外一個執(zhí)著于將機(jī)器造得貼近人形的是機(jī)器人創(chuàng)業(yè)公司Figure,其創(chuàng)始人Brett Adcock認(rèn)為:“Figure的人形機(jī)器人是AGI的最終部署載體?!?在宣布與OpenAI達(dá)成合作三周后,F(xiàn)igure公司放出了大模型加持下其最新更新的機(jī)器人Figure01演示視頻,已經(jīng)可以聽從人類的命令,遞給人類蘋果,將黑色塑料袋收拾進(jìn)框子里,將杯子和盤子歸置放在瀝水架上。能夠聽懂人的命令,自動將復(fù)雜任務(wù)進(jìn)行分解,然后實(shí)施行動,而且行動速度接近于人類,該公司稱其行為為自主操作。因機(jī)器人能力的突飛猛進(jìn),F(xiàn)igure被科技巨頭們競相投資,這家2022年成立的公司,現(xiàn)在估值已破26億美元。
“腦肌”結(jié)合:從形似到神似?
不僅僅是“形”似,更需要類腦智能的“神”似。中國科學(xué)院院士、中國科學(xué)院自動化所研究員喬紅幾年前就曾表示,現(xiàn)有機(jī)器人系統(tǒng)的性能仍然受到傳感器精度、系統(tǒng)重復(fù)精度和輔助機(jī)械性能的限制。相比之下,人類在感官反饋絕對精度低、行為控制和分散計算能力有限的情況下,可以實(shí)現(xiàn)比每個身體單元獨(dú)立完成能力更加出色的整體性能。這主要得益于人類能夠整合多個腦區(qū)的信息,并且能充分利用身體結(jié)構(gòu)的優(yōu)勢。所以應(yīng)該通過模仿人類的生理結(jié)構(gòu)、行為特征、智能原理和控制機(jī)制,開展類腦智能機(jī)器人研究,通過整合腦科學(xué)、人工智能和機(jī)器人學(xué)等多個學(xué)科,建立具有高計算效率和通用智能的類腦信息處理算法,研發(fā)具有高度靈活性和魯棒性的肌肉骨骼系統(tǒng),為下一代機(jī)器人的發(fā)展奠定基礎(chǔ)。
喬紅提出從內(nèi)部神經(jīng)機(jī)制到外部軀體結(jié)構(gòu)的研究思路,構(gòu)建一個包含視角認(rèn)知、決策、運(yùn)動控制和肌肉骨骼結(jié)構(gòu)的類腦智能機(jī)器人系統(tǒng)?;谶@樣的思路,喬紅團(tuán)隊(duì)最近設(shè)計出多臺“Q系列”人形機(jī)器人樣機(jī),更為重要的是,他們創(chuàng)造了人形機(jī)器人設(shè)計、組裝的“大工廠”的模式 ,可以快速生成各類人形機(jī)器人系統(tǒng),包括仿生高動態(tài)機(jī)器人Q1,多地形適應(yīng)機(jī)器人Q2,高爆發(fā)運(yùn)動機(jī)器人Q3,高柔順、高精度運(yùn)動的類人形機(jī)器人Q4,高并發(fā)推理人形機(jī)器人Q5等,也為未來在人類難以到達(dá)的環(huán)境中進(jìn)行人形機(jī)器人自生產(chǎn)、自構(gòu)建、自進(jìn)化打下基礎(chǔ),人形機(jī)器人新想象空間正在打開。
人形機(jī)器人技術(shù)的突破需要包括神經(jīng)科學(xué)、信息科學(xué)、材料科學(xué)、機(jī)械學(xué)等多學(xué)科協(xié)同,而材料科學(xué)的進(jìn)步也是其中的關(guān)鍵支撐。最近,瑞士蘇黎世聯(lián)邦理工學(xué)院Robert Katzschmann教授團(tuán)隊(duì)開發(fā)了一種名為HALVE的新型人造肌肉,為機(jī)器人運(yùn)動帶來了創(chuàng)新性突破,讓機(jī)器人向柔軟、適應(yīng)性強(qiáng)的方向發(fā)展有了可能。
軟體機(jī)器人與環(huán)境的互動方式與剛性機(jī)器人有很大不同,軟體機(jī)器人普遍采用更柔順、更安全、更低能耗的運(yùn)動模式。事實(shí)上,今天的人形機(jī)器人,功耗與電池也是一大挑戰(zhàn)?!叭祟惔竽X的功耗僅為20瓦左右,而與今天的人工智能算法的訓(xùn)練能耗相比幾乎可以忽略不計?!?喬紅說道。
HALVE的柔軟性和可伸縮性使得軟體機(jī)器人能夠執(zhí)行類似于生物肌肉的復(fù)雜運(yùn)動。其人工肌肉技術(shù)的核心概念是模擬生物肌肉的結(jié)構(gòu)和功能,運(yùn)行機(jī)制模仿了真實(shí)肌肉,可對電脈沖作出反應(yīng),發(fā)生迅速的收縮或膨脹。它由充滿液體(通常是油)的囊袋和覆蓋電極的外殼組成,通過對電脈沖的響應(yīng)實(shí)現(xiàn)收縮。單個囊袋可看做一束肌肉纖維,幾個囊袋可以連接起來形成一個完整的推進(jìn)器。
據(jù)了解,HALVE有多層外殼,采用高介電常數(shù)電鐵材料(high-permittivity ferroelectric material),可以存儲大量電能,能夠在較低電壓下產(chǎn)生較大的力,并具有優(yōu)異的機(jī)械性能,使整個囊袋更穩(wěn)定堅(jiān)固。相較于以往技術(shù),HALVE不需要工作在過高電壓范圍內(nèi),無須連接大型、重型的電壓放大器,能夠在水中工作,顯著提高了安全性。
人形機(jī)器人產(chǎn)業(yè)正在以前所未有的速度加速進(jìn)化。如果將1972年早稻田大學(xué)推出的全尺寸人形機(jī)器人WABOT-1 視為全球首個人形機(jī)器人,那么歷經(jīng)了漫長的50年后,今天人形機(jī)器人的發(fā)展終于進(jìn)入加速突破期,真正迎來商業(yè)化的元年。
Figure機(jī)器人操作高級AI工程師Corey Lynch說:“你看到的Figure01的一切,只用到了一個神經(jīng)網(wǎng)絡(luò)?!蔽磥恚诵螜C(jī)器人還將帶來更多的可能。
作者丨特約撰稿 李佳師
編輯丨邱江勇
美編丨馬利亞
監(jiān)制丨連曉東