作者?|?賴文昕,編輯 | 陳彩嫻
吳翼、高陽、許華哲、陳建宇、湯特、段巖、陳曦、張?zhí)旌?、羅劍嵐.....深度強(qiáng)化學(xué)習(xí)與機(jī)器人的相映交輝下,是一代英才輩出。
短短不到一年內(nèi),邊塞科技、星動紀(jì)元、星海圖和千尋智能接連成立,躋身國內(nèi)明星創(chuàng)企之列;大洋彼岸,Covariant 和 Anyware Robotics 也正在灣區(qū)閃耀。六家具身智能公司,八位 90 后創(chuàng)始人,他們都成長于深度強(qiáng)化學(xué)習(xí)的搖籃。作為最早一批開啟新范式的人,他們探索 AI 和 Robotics 的故事要從踏入伯克利校園說起。
01、潮起深度強(qiáng)化學(xué)習(xí)
2016 年春,伯克利計算機(jī)系每學(xué)期都會變化的 frontier 課開始了。Frontier 課又稱臨時課,內(nèi)容不定,老師多變,是為了探討學(xué)術(shù)前沿而設(shè)——這次,輪到了“深度強(qiáng)化學(xué)習(xí)”。
走進(jìn)只有二三十人的教室,吳翼和高陽、段巖(Rocky Duan)、陳曦(Peter Chen)坐在了一起。講臺上,Pieter Abbeel 和 Sergey Levine 輪番上陣分享最新研究,系統(tǒng)性理論教學(xué)與進(jìn)階內(nèi)容并不多。此時鼎鼎大名的人工智能實驗室 BAIR 尚未成立,伯克利最火的教授還是做統(tǒng)計、貝葉斯機(jī)器學(xué)習(xí)的 Michael ?I. Jordan 和 Martin Wainwright 等人。當(dāng)時 OpenAI 尚未提出近端策略優(yōu)化(PPO)算法,其前身 TRPO 算法(由 John Schulman 和兩位講者提出)、DeepMind 剛改進(jìn)的 DQN(深度強(qiáng)化學(xué)習(xí)開山之作)以及強(qiáng)化學(xué)習(xí)經(jīng)典的策略梯度(Policy Gradient)算法是這門臨時課的重點。
作為剛?cè)腴T強(qiáng)化學(xué)習(xí)的“小白”,吳翼不懂就問,常抱段巖和陳曦的“大腿”,因后兩人正跟著導(dǎo)師 Pieter Abbeel 在 OpenAI 實習(xí),研究強(qiáng)化學(xué)習(xí)算法的框架 RLLib,天天寫代碼。此時的吳翼剛結(jié)束了一個學(xué)期的焦慮與煎熬:博二的他在 Stuart Russell 組研究貝葉斯推理,繼續(xù)大三暑研就開始參與的概率編程語言項目。上課之余,他還在帶本科生參加 DARPA Challenge,項目重且每學(xué)季都有匯報。論文九投一中,新方向顆粒無收,反而是本科論文中了。但同年,和吳翼同屆的 Chelsea Finn 與 Sergey Levine、Pieter Abbeel 開發(fā)的算法第一次實現(xiàn)了用深度學(xué)習(xí)做機(jī)器人控制,讓機(jī)器人 BRETT 學(xué)會了將瓶蓋擰到瓶子上、將衣架放在架子上以及用錘子爪端拔出釘子等技能。
盡管圈內(nèi)鮮有人認(rèn)可,但伯克利 AI 方向的幾位教授已開始帶著學(xué)生試跑強(qiáng)化學(xué)習(xí),比如 Trevor Darell 和其學(xué)生 Evan Shelhamer(現(xiàn) DeepMind 科學(xué)家)。他們踩了些坑后判斷這個方向可行,于是 2015 年夏天,Pieter Abbeel 開了個大組會,宣布整組轉(zhuǎn)向深度強(qiáng)化學(xué)習(xí)。目睹隔壁組的轉(zhuǎn)向,申博時就想做大規(guī)模機(jī)器學(xué)習(xí)系統(tǒng)的吳翼也對深度強(qiáng)化學(xué)習(xí)產(chǎn)生了興趣。
最初他選擇伯克利的原因之一,便是被 AMP Lab 孵化出來的 Databricks 及其開源大數(shù)據(jù)處理工具 Spark 吸引,覺得學(xué)術(shù)界能做出工業(yè)級別的系統(tǒng)很厲害。但導(dǎo)師 Stuart Russell 對此不太感冒,其研究偏好在貝葉斯推理、邏輯推理,喜歡優(yōu)雅的算法和 AI 理論,而非工程性較強(qiáng)的項目。吳翼和 Stuart 討論過一個問題:如何將邏輯推理系統(tǒng)擴(kuò)展應(yīng)用到大規(guī)模數(shù)據(jù)處理?吳翼認(rèn)為由下至上(bottom up)的邏輯推理系統(tǒng)比較容易實現(xiàn),先從簡單情況開始,把整個邏輯系統(tǒng)中容易擴(kuò)展(scale)的部分遷移到 Spark 上,以便先把算力利用起來實現(xiàn)一些應(yīng)用進(jìn)展,然后再慢慢向完整的推理系統(tǒng)和邏輯理論靠近。Stuart 則支持由上而下(top down),不能一開始就僅僅為了計算能力去盲目追求擴(kuò)展性(scalability),應(yīng)該從更高的起點出發(fā),先構(gòu)建一個完整的推理系統(tǒng),再考慮如何使其可擴(kuò)展。文無第一,師生二人的理念不同,雖然 Stuart 的觀點從做科學(xué)的角度看很有道理,但吳翼對自己的學(xué)術(shù)偏好也有自己的堅持。該研究導(dǎo)師感興趣的問題,還是做自己最想做的方向?在糾結(jié)中失眠半年后,吳翼想了一個解法:在做組里課題的同時,多加一個新方向的研究項目。這個想法也獲得了 Stuart 的支持。2015 年圣誕節(jié)假期結(jié)束回校,吳翼就去找了 Pieter Abbeel,自我介紹后就開門見山:“I want to do some deep reinforcement learning projects(我想做點深度強(qiáng)化學(xué)習(xí)的項目)”。Pieter 欣然同意,讓吳翼從三個項目中自選,吳翼沒多考慮就選了“Value Iteration Networks”這個項目——半年后,他就發(fā)表了第一篇深度學(xué)習(xí)論文,并獲得了 NIPS 2016 最佳論文獎。2016 年 7 月,吳翼去參加 IJCAI,偶遇剛讀博的 Jakob Foerster(現(xiàn)劍橋教授,多智能體領(lǐng)先者之一),與其聊到智能體之間如何通過交流推測帽子顏色,發(fā)現(xiàn)這和自己在清華姚班讀本科時接觸過的博弈論有異曲同工之妙。同年暑假,他受李磊邀請去字節(jié)今日頭條實習(xí),接觸了自然語言處理(NLP),回伯克利后發(fā)現(xiàn)他的師兄 Jacob Andreas(現(xiàn) MIT 教授)開創(chuàng)性地將強(qiáng)化學(xué)習(xí)與 NLP 結(jié)合,能讓 AI 智能體實現(xiàn)指令跟從,在 2D 模擬環(huán)境中執(zhí)行從找到鐮刀、拿起鐮刀、移動到麥田、收割麥子等一系列動作。這兩項工作對吳翼的啟發(fā)很大,他也由此對多智能體學(xué)習(xí)產(chǎn)生了興趣,并轉(zhuǎn)向該方向的研究。后來博士畢業(yè)后,吳翼加入 OpenAI 也是從事大規(guī)模強(qiáng)化學(xué)習(xí)系統(tǒng)與多智能體的研究。此外,在伯克利讀博期間,吳翼還到 Facebook 實習(xí),在田淵棟的指導(dǎo)下參與了視覺導(dǎo)航最早的工作之一 House3D。House 3D 是 Facebook 具身智能體研究平臺 Habitat 的重要組成部分,后來其“Habitat 挑戰(zhàn)賽”也成為了具身智能最熱門的挑戰(zhàn)賽之一。被吳翼抱大腿的段巖和陳曦,由于在 Pieter Abbeel 組,也最早經(jīng)歷了伯克利深度強(qiáng)化學(xué)習(xí)浪潮的崛起。2011 年,段巖從深圳中學(xué)畢業(yè)后來到伯克利讀本科,和陳曦是計算機(jī)與統(tǒng)計雙專業(yè)的同班同學(xué)。此外,段巖還多修了數(shù)學(xué)專業(yè)。段巖人稱“Rocky Fast”,做事效率高、速度快,因為想創(chuàng)業(yè),和陳曦兩人用三年讀完本科后就創(chuàng)立了一家公司叫 Sellegit,專注于對移動電商平臺的開發(fā)與研究,比如以 9 分鐘極速閃拍模式爆火的時尚電商拍賣平臺 PEACH。
這段創(chuàng)業(yè)經(jīng)歷也很快結(jié)束,只持續(xù)了一年左右。2015 年 8 月,兩人又回到伯克利,一起在 Pieter 組讀博。段巖與 Pieter 的緣分可以追溯到大三,他發(fā)表的第一篇論文就是 Pieter 帶領(lǐng)的鉸接式機(jī)器人工作,被機(jī)器人頂會 IROS 2013 接收。讀博后不久,兩人又跟著 Pieter 加入了當(dāng)時團(tuán)隊只有 10 人的 OpenAI,研究深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)??梢哉f,他們是最早接觸深度強(qiáng)化學(xué)習(xí)的中國青年。先行者們很快認(rèn)識到深度強(qiáng)化學(xué)習(xí)的局限性:它依賴大量環(huán)境互動,且適應(yīng)性差,一旦環(huán)境變化就需要重新訓(xùn)練,成本高昂。
相比之下,人類和動物能夠利用豐富的先驗知識和經(jīng)驗遷移,快速學(xué)習(xí)新技能。為了解決這個問題,段巖提出將元學(xué)習(xí)與深度強(qiáng)化學(xué)習(xí)結(jié)合,目標(biāo)是讓模型學(xué)會如何快速學(xué)習(xí),并在 2016 年末提出了 RL2算法,陳曦也參與其中。此時 Transformer 尚未誕生,太過領(lǐng)先的元強(qiáng)化學(xué)習(xí)還是一個難以理解的概念,不被學(xué)術(shù)圈看好,因此論文投稿一直沒中。為了支持學(xué)生,Pieter 干脆將自己演講 PPT 的第一頁換為論文介紹,只要有外出分享的機(jī)會,就會向在場觀眾介紹,“這是我們今年最重要的工作?!背嗽獜?qiáng)化學(xué)習(xí)開山之作 RL2算法外,在 OpenAI,陳曦還跟著生成對抗網(wǎng)絡(luò)(GAN)之父 Ian Goodfellow,參與了提高訓(xùn)練 GAN 技術(shù)的工作,論文引用量超過了一萬。
02、開創(chuàng) AI + Robotics
Pieter Abbeel 的成名之作是在斯坦福吳恩達(dá)組讀博時用強(qiáng)化學(xué)習(xí)控制直升機(jī)倒飛。2008 年他到伯克利后,除了開拓深度強(qiáng)化學(xué)習(xí),還最早將原本壁壘很大的深度學(xué)習(xí)與機(jī)器人領(lǐng)域結(jié)合,創(chuàng)立了機(jī)器人學(xué)習(xí)(Robot Learning)實驗室。機(jī)器人學(xué)習(xí)研究的主要內(nèi)容,也是如今具身智能領(lǐng)域最核心的方向之一。
前文提到的 TRPO 算法是該方向的一大突破性貢獻(xiàn),它讓機(jī)器人能學(xué)習(xí)一系列模擬的控制技能,其開源代碼與視頻教程也吸引了越來越多研究人員參與其中,使機(jī)器人能完成的任務(wù)越來越復(fù)雜。除了 TRPO,Pieter 團(tuán)隊在該方向還發(fā)表了許多引領(lǐng)性的工作,例如 2015 年的泛化優(yōu)勢估計(GAE)首次實現(xiàn)了 3D 機(jī)器人運動學(xué)習(xí),2018 年的柔性致動評價(soft-actor critic)能在數(shù)小時內(nèi)教機(jī)器人解決真實世界的問題、引用量接近一萬,是迄今為止最流行的深度強(qiáng)化學(xué)習(xí)方法之一。2016 年陳曦和段巖的本科師弟張?zhí)旌萍尤?Pieter 組讀博時,Pieter 組內(nèi)的研究重點也從強(qiáng)化學(xué)習(xí)轉(zhuǎn)向了機(jī)器人與 AI 算法的結(jié)合。
段巖與陳曦提出的 RL2 算法雖能讓機(jī)器人從自身經(jīng)驗中快速學(xué)會一項技能,但機(jī)器人在實驗室學(xué)習(xí)的經(jīng)驗是簡單和人為的,可學(xué)習(xí)的技能范圍也有限。那時候,陳曦和段巖常從伯克利校園自駕 15 分鐘,到奧克蘭唐人街的中餐廳吃飯。一次晚飯,二人聊起 RL2 算法,發(fā)現(xiàn)對機(jī)器人快速學(xué)會技能后具體的下一步是什么并不清楚。他們意識到,機(jī)器人該掌握哪些技能、應(yīng)用在哪些具體場景、任務(wù)的實施對象、在多長周期內(nèi)完成、所需硬件有哪些等等問題依舊懸而未決——學(xué)術(shù)領(lǐng)域的抽象追求和真實行業(yè)的實際需求差距太大。
于是他們就產(chǎn)生了一個想法:創(chuàng)業(yè)。
“Rocky Fast”再次用三年時間讀完博士,然后拉上還沒畢業(yè)的好友陳曦、師弟張?zhí)旌?,以及對他們無條件支持的導(dǎo)師 Pieter Abbeel,一起離開當(dāng)時已經(jīng)近百人規(guī)模的 OpenAI,2017 年 9 月成立了一家名為“Embodied Intelligence”的機(jī)器人創(chuàng)業(yè)公司。但很快,因為名字太直接、與“Embodied AI”的大研究方向幾乎重名,就像用 AGI 給大模型公司命名一樣不合時宜,他們又將公司名改為了“Covariant AI”。有了 Pieter 的加入,Covariant AI 在種子輪就融到了 700 萬美元,后續(xù)的投資人陣容更是眾星云集,包括 Geoffrey Hinton、Yann LeCun、李飛飛、Jeff Dean 等人工智能領(lǐng)域的大牛,連比爾·蓋茨也參與了去年的 C 輪融資。也是在 2017 年前后,伯克利計算機(jī)系的幾位大牛一起籌備成立了一個虛擬的組織——伯克利人工智能實驗室(BAIR)。
Jitendra Malik 和 Trevor Darrell 是 BAIR 最初的兩位發(fā)起人。他們認(rèn)為,伯克利的 AI 雖強(qiáng),但各自為戰(zhàn)、沒有形成群體的影響力,所以希望通過 BAIR 把計算機(jī)系的各個團(tuán)隊聚集起來,整合資源做更大的事。這個想法獲得系內(nèi)的一致認(rèn)可。于是參與 BAIR 的各個組匯聚到同一個大平層里,寧可吵一點也要讓所有人每天都能交流,無論是老師之間、學(xué)生之間還是師生之間都能平等合作。Trevor 的兩位中國學(xué)生高陽、許華哲也是從這時開始,從視覺轉(zhuǎn)向,開始同 Pieter Abbeel、Sergey Levine 合作研究強(qiáng)化學(xué)習(xí)相關(guān)的課題。高陽是 2014 年到伯克利讀博,和吳翼同一屆。到伯克利之前,高陽在清華計算機(jī)系讀本科,期間曾加入朱軍團(tuán)隊參與研究貝葉斯推理,以及在谷歌北京跟著原谷歌中國工程院副院長張智威和清華學(xué)長李方濤研究 NLP。
因喜愛機(jī)器學(xué)習(xí),高陽在四大高校的offer中選擇了伯克利。進(jìn)入伯克利后,高陽第一年上了許多包括 Michael Jordan 在內(nèi)的教授的課,發(fā)現(xiàn)他們做的研究偏理論,涉及大量數(shù)學(xué)公式推導(dǎo)而非編程實踐,與自己的預(yù)期差距不小。高陽想做更有現(xiàn)實影響力的工作,于是就找到了 Trevor Darrell。彼時 Trevor 正在研究機(jī)器人跨模態(tài)的視覺和觸覺交互數(shù)據(jù)集,讓高陽也參與進(jìn)來,算是對他的考察。項目完成后,Trevor 對高陽很滿意,高陽就成功進(jìn)了 Trevor 的組讀博。機(jī)緣巧合下,后來視覺與觸覺也成為如今機(jī)器人最重要的兩個感知模態(tài)。
高陽的第一個工作也被 CVPR 2015 的“視覺領(lǐng)域數(shù)據(jù)集的未來” workshop 接收。Trevor 的風(fēng)格是鼓勵學(xué)生自由探索自己感興趣的方向。他有一個特別知名的中國學(xué)生叫賈揚清,就是在這樣包容的研究氛圍中開發(fā)出了深度學(xué)習(xí)框架 Caffe。高陽進(jìn)組后也先做了一個深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)的工作,并在頭兩年跟著 Trevor 深耕視覺。除了視覺的感知,Trevor 還鼓勵學(xué)生廣開思路,探索可動、可執(zhí)行的人工智能(Actionable AI),去做跟決策相關(guān)的研究。于是 2016 年博二下學(xué)期,高陽開始接觸自動駕駛,暑假還到 Waymo 實習(xí),參與了自動駕駛的感知與決策研究。決策涉及強(qiáng)化學(xué)習(xí)的知識,但此時高陽只在 frontier 課里上過 Pieter 的課、沒上手做過項目,而這又跨出了 Trevor 擅長的研究范圍,高陽就同 Trevor 提議,跟大力鉆研 RL 的 Sergey 合作,Trevor 爽快同意,團(tuán)隊便一起探索彼時仍少人涉足的模仿學(xué)習(xí)預(yù)訓(xùn)練與強(qiáng)化學(xué)習(xí)微調(diào)相結(jié)合的算法。
項目最早的實驗針對人形機(jī)器人站立、跑動等控制問題展開,后期再轉(zhuǎn)移到自動駕駛領(lǐng)域?!氨举|(zhì)上自動駕駛就是一個特殊的機(jī)器人控制問題,所以最開始研究的很多算法,在機(jī)器人和自動駕駛兩個領(lǐng)域都完全通用?!备哧柛嬖V雷峰網(wǎng)。從技術(shù)發(fā)展的先后順序看,自動駕駛當(dāng)時恰好處于人臉識別等純視覺技術(shù)與機(jī)器人之間,技術(shù)未定型又不至于完全不成熟,需解決視覺感知和決策問題,正合高陽的意。到了博四,高陽參與了由 Trevor 領(lǐng)銜的 Deep Drive 項目。
作為北美最大的自動駕駛研究組織之一,此項目匯集了包括 Sergey、Pieter 在內(nèi)的十余位教授,Toyota、Meta 和 Sony 等汽車制造商和上下游公司出資贊助科研,高陽也因此第一次接觸硬件。在 2017 年,高校里有一臺完整的自動駕駛汽車還是件新鮮事,因本??臻g有限,還得到里士滿灣校區(qū)做實驗。高陽負(fù)責(zé)開發(fā)核心算法并將其整合到汽車上驗證效果,以 Sim2Real 的方式測試端到端算法在現(xiàn)實世界中的表現(xiàn)。當(dāng)看到自己單獨開發(fā)的算法能讓汽車通過簡單的訓(xùn)練在測試場里連續(xù)行駛?cè)娜?,高陽很驚喜,“當(dāng)時從下至上把 ROS(機(jī)器人操作系統(tǒng))摸了一遍,深刻理解了硬件實際操作與純仿真環(huán)境的不同?!?016 年,許華哲也從清華畢業(yè)來到伯克利 Trevor 組讀博,首個項目便是與高陽合作的端到端自動駕駛課題,被 CVPR 2017 錄取為 Oral Paper 。他們發(fā)布了當(dāng)時最全面、時長最長的自動駕駛數(shù)據(jù)集 BDDV。當(dāng)時 Trevor 傳達(dá)的核心理念是,模型的質(zhì)量取決于數(shù)據(jù)的質(zhì)量?;谶@一理念,他們利用車載攝像頭收集了數(shù)萬小時的視頻數(shù)據(jù),幾乎覆蓋了舊金山所有街道,再通過位置、速度、加速度等信息預(yù)測車輛動作,同后來模仿學(xué)習(xí)的范式非常一致。
在伯克利,許華哲與高陽、吳翼的關(guān)系最好。他們都來自清華,又都對 AI + Robotics 感興趣,三個人有一個微信小群,經(jīng)常約著一起吃飯。許華哲剛進(jìn) Trevor 組時,團(tuán)隊主攻域遷移與視覺-語言兩大方向,Trevor 建議許華哲和高陽去“開荒”彼時熱度飆升的自動駕駛。但做了幾個自動駕駛的項目后,許華哲認(rèn)為視覺技術(shù)的本質(zhì)是識別或生成,而他更希望創(chuàng)造出能做決策、與世界互動并對世界產(chǎn)生影響的智能體——也就是機(jī)器人。所以博一下學(xué)期,得益于 BAIR 對跨組合作的鼓勵,許華哲開始跟 Sergey 合作,研究重點也從單純的視覺轉(zhuǎn)向了強(qiáng)化學(xué)習(xí)、視覺與機(jī)器人結(jié)合的方向。2017 年 6 月,BAIR 博客正式開張,許華哲還成為了首屆編輯部的五位成員之一。
因早期機(jī)器人非常昂貴,他們的研究主要以模擬器和游戲為主。許華哲和 Sergey 合作過 2.5 個項目,是關(guān)于賽車游戲、超級馬里奧和仿真機(jī)器人;還和同樣喜歡打星際爭霸的師兄唐浩然(曾任 Covariant 研究科學(xué)家)一起,同 Pieter 合作了一個打星際爭霸的項目。
轉(zhuǎn)方向后,許華哲最大的感受是個人的研究樂趣提高了,“因為成果很直觀,比如(強(qiáng)化學(xué)習(xí))能讓游戲打得更好,當(dāng)然代碼難度也更大。純視覺更多是對神經(jīng)網(wǎng)絡(luò)的調(diào)參能力要求較高,強(qiáng)化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相對簡單,但要處理一大堆模擬器等底層的東西?!?018 年 2 月,許華哲到 Facebook 人工智能研究院(FAIR)實習(xí),和田淵棟、馬騰宇合作。當(dāng)時馬騰宇剛拿到斯坦福教職 offer,想在 gap year 探索些不同的理論,許華哲就與他合作了機(jī)器人的相關(guān)內(nèi)容。
隨著機(jī)器人成本逐漸下降,許華哲在 2019 年第二次入職 FAIR 時開始逐漸上手碰真機(jī),真正地從 Actionable AI 轉(zhuǎn)到具身智能。當(dāng)時 Facebook 跟伯克利有個“FAIR BAIR Triangle”項目,雙方合作,學(xué)生可以在兩地各有一位導(dǎo)師,許華哲在 Facebook 的導(dǎo)師是 Roberto Calandra(今德累斯頓工業(yè)大學(xué)教授),在他和 Trevor 的指導(dǎo)下做機(jī)器人觸覺相關(guān)項目,完成了觸覺數(shù)據(jù)庫 Pytouch 與讓機(jī)械手彈鋼琴的工作。在觸覺靈巧手項目中,許華哲意識到,真機(jī)與仿真間的gap很大:觸覺模擬器不好用。和只需要按下重啟即可做下一次實驗的模擬器不同,真機(jī)的某零件損壞就得修理或重買,是個“臟活”,“2020 年疫情自己在家里拿杯子采數(shù)據(jù),觸覺傳感器突然壞了,得等網(wǎng)購的東西到才能修好,節(jié)奏馬上就慢了下來。”
03、Robotics + AI
如果說計算機(jī)系作為深度強(qiáng)化學(xué)習(xí)搖籃研究的是 AI + Robotics,那么隔壁的機(jī)械工程系則是在盟友的影響下,加速了對 Robotics + AI 的探索。具體而言,計算機(jī)系是從上層感知技術(shù)向底層逐步滲透,從 AI 出發(fā),在遇到 AI 的局限(例如可解釋性不足)時,再整合控制理論等元素;機(jī)械工程系則從底層起步向上拓展,側(cè)重于模型基礎(chǔ)研究和工業(yè)應(yīng)用,在遇到傳統(tǒng)技術(shù)局限時,引入 AI 技術(shù)進(jìn)行增強(qiáng)。也是從 2017 年起,兩大專業(yè)的交叉內(nèi)容越來越多。
隨著伯克利 CS 系的 frontier 課逐漸系統(tǒng)化,加入了理論推導(dǎo)和更多細(xì)節(jié),其最終在 2017 年正式成為全球首個深度強(qiáng)化學(xué)習(xí)(DRL)課程。此時 DRL 在業(yè)界才剛火起來,基本停留在研讀論文的階段,由 Sergey Levine 授課的 CS285 自此成為該領(lǐng)域的“圣經(jīng)”。
第一次正式開課,伯克利機(jī)械工程系的陳建宇、湯特也來了。兩人在機(jī)械系統(tǒng)控制實驗室(MSC Lab)讀博,師從模型預(yù)測控制(MPC)的奠基人、美國工程院院士 Masayoshi Tomizuka。Sergey 備課極認(rèn)真,深入淺出地從基礎(chǔ)知識到最前沿技術(shù),串起深度強(qiáng)化學(xué)習(xí),配上編程作業(yè)和仿真器教學(xué),學(xué)生們得以兼修理論和實踐。當(dāng)時還在讀博的 Chelsea Finn 偶爾也來做嘉賓講座,分享自己的第一手研究。
在最后的開放式大作業(yè)中,陳建宇開發(fā)了一種分層強(qiáng)化學(xué)習(xí)框架,并首創(chuàng)了一個無人車仿真器進(jìn)行訓(xùn)練,填補(bǔ)了當(dāng)時該領(lǐng)域的空白。2011 年,陳建宇被保送到清華精密儀器系(國內(nèi)最早從事雙足人形機(jī)器人研究的單位之一),前兩年接觸機(jī)器人硬件,后兩年關(guān)注機(jī)器人算法,大三暑研就來到了 MSC Lab 做步態(tài)檢測,以類似遙操作的方式提取人腿數(shù)據(jù)分析雙足步態(tài)行走,并在畢設(shè)項目設(shè)計機(jī)器人步態(tài)規(guī)劃算法,在仿真里做雙足機(jī)器人。讀博期間,陳建宇主要參與無人駕駛項目。他的導(dǎo)師 Masayoshi 自 1980 年代起便對無人駕駛技術(shù)充滿熱情,曾在加州高速公路上開展無人駕駛車隊列項目,希望通過緊密編隊提高運輸效率。但由于成本過高和技術(shù)限制,該項目最終被擱置。直到 2015 年深度學(xué)習(xí)技術(shù)興起,無人駕駛車輛的感知能力顯著提高,Masayoshi 認(rèn)為無人駕駛發(fā)展前景光明,于是重啟了相關(guān)研究。在此背景下,陳建宇成為了組內(nèi)最早做無人車的 PhD 之一。
在研究無人車的同時,陳建宇密切關(guān)注著隔壁 CS 系將強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合的研究,特別是在機(jī)器人領(lǐng)域的應(yīng)用。他認(rèn)為深度強(qiáng)化學(xué)習(xí)與控制領(lǐng)域緊密相關(guān),且其解決問題的表示形式與 MPC 在本質(zhì)上相似。在觀察到這些技術(shù)的潛力后,他決定轉(zhuǎn)向強(qiáng)化學(xué)習(xí)領(lǐng)域進(jìn)行深入研究。博三起,陳建宇在無人駕駛領(lǐng)域進(jìn)行了端到端的探索,他堅信端到端學(xué)習(xí)是未來發(fā)展的趨勢,并在仿真環(huán)境中進(jìn)行了強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)的研究,初步嘗試將世界模型的概念融入算法中,盡管受數(shù)據(jù)和技術(shù)所限未能在實車上應(yīng)用。即使主要課題和獎學(xué)金都來自無人車項目,在驗證學(xué)習(xí)算法時,陳建宇也使用了其他形態(tài)的機(jī)器人,如機(jī)械臂等,以展示具身智能的普適性。在他看來,無人車也是一種機(jī)器人形態(tài),“而且無論是 MPC 還是強(qiáng)化學(xué)習(xí),都是適用于不同形態(tài)機(jī)器人的通用方法?!?/p>
盡管在論文層面沒有直接合作,陳建宇同 CS 系在方法和創(chuàng)意的交流十分頻繁,特別是向 Sergey 請教。比陳建宇大兩屆的湯特則和 Pieter Abbeel 交流更多,還邀請了 Pieter 加入自己的博士委員會提供指導(dǎo)。讀博期間,湯特的研究主要圍繞模仿學(xué)習(xí)而展開。工業(yè)機(jī)器人巨頭發(fā)那科和 MSC Lab 合作緊密,因此湯特在 2013 年從上海交大畢業(yè)來到伯克利后,便一直與發(fā)那科深度合作,甚至每年暑假都去極少對外界開放的發(fā)那科研發(fā)總部實習(xí)。他讀博的首個課題,便是解決業(yè)內(nèi)公認(rèn)難題:讓工業(yè)機(jī)器人根據(jù)觸覺反饋,靈活地進(jìn)行裝配?!把b配過程很難用精確的數(shù)學(xué)建模來解析。但人類有一種直覺,在感受到阻力時調(diào)整裝配的方向和移動速度,而機(jī)器人在需要柔順性的任務(wù)上表現(xiàn)不佳,其核心問題在于不具備此直覺,”湯特解釋道,“模仿學(xué)習(xí)能將這種直覺轉(zhuǎn)移到機(jī)器人身上,且即使在數(shù)據(jù)匱乏的情況下,也能高效地學(xué)習(xí)到高維度的信息?!?/p>
在剛體裝配有所突破后,接下來的兩年半時間里,湯特進(jìn)一步挑戰(zhàn)更復(fù)雜的柔性體裝配。像汽車生產(chǎn)的四大環(huán)節(jié)中,沖壓、焊接、涂裝都已高度自動化,但總裝環(huán)節(jié)仍然勞動力密集。一個重要原因就是以線束為代表的柔性體很難被自動化裝配,涉及實時3D追蹤和運動規(guī)劃的問題。湯特使用模仿學(xué)習(xí)的策略,通過較小樣本量的人類演示,教會機(jī)器人完成復(fù)雜的柔性體操作任務(wù),比如在不同的初始狀態(tài)下給繩子打結(jié)、折疊衣服,控制人形機(jī)器人雙手協(xié)作安裝線束。通過這兩個項目,湯特深刻理解了感知與決策的關(guān)系:3D 視覺是第一步,用于獲取物體三維信息并進(jìn)行初步處理。但關(guān)鍵挑戰(zhàn)在于將識別結(jié)果與機(jī)器人動作決策相結(jié)合,而模仿學(xué)習(xí)通過將視覺信息轉(zhuǎn)化為運動指令來填補(bǔ)這一空白。
2018 年湯特畢業(yè),正遇上灣區(qū)機(jī)器人創(chuàng)業(yè)的浪潮,陳曦和段巖想開拓物流倉儲場景,需要擅長工業(yè)機(jī)器人的伙伴互補(bǔ),便通過 Pieter 聯(lián)系湯特,想讓他加入 Covariant 一起合作。湯特考慮再三,覺得自己對工業(yè)場景和客戶需求的理解還不夠深刻,決定先到工業(yè)界歷練幾年,便婉拒了邀請,來到發(fā)那科參與組建先端研究所 (Advanced Research Lab),成為其首位成員。除了 MSC Lab 的二人外,在機(jī)械工程系讀博士的羅劍嵐也在探索 Robotics + AI,同時在 Pieter 指導(dǎo)下攻讀計算機(jī)系的碩士,最后 Pieter 也成為了他博士論文的 co-chair。羅劍嵐最關(guān)注的是如何讓強(qiáng)化學(xué)習(xí)在真實世界可行。同年來到伯克利的羅劍嵐和陳建宇志趣相投,前者做強(qiáng)化學(xué)習(xí)和真機(jī)機(jī)器人,后者做強(qiáng)化學(xué)習(xí)和自動駕駛,兩人常一起約飯,討論強(qiáng)化學(xué)習(xí)的應(yīng)用。2017 年暑假,羅劍嵐參與西門子伯克利分部的項目,和 Pieter、Sergey 開始合作,把深度強(qiáng)化學(xué)習(xí)應(yīng)用到工業(yè)生產(chǎn)中,學(xué)習(xí)策略以解決傳統(tǒng)機(jī)器人解決不了的問題,比如高精度裝配。這也是羅劍嵐在強(qiáng)化學(xué)習(xí)領(lǐng)域的起點,所設(shè)計的算法不僅要能進(jìn)行規(guī)劃,還要能實時響應(yīng)外部變化,并制定策略成功完成裝配。那時,在 MuJoCo 模擬環(huán)境中進(jìn)行強(qiáng)化學(xué)習(xí)實驗、刷榜、發(fā)論文是常規(guī)操作,但羅劍嵐卻認(rèn)為,當(dāng)時的強(qiáng)化學(xué)習(xí)算法性能榜單與現(xiàn)實世界機(jī)器人控制問題脫節(jié),并沒有解決實際問題。
幾篇論文下來,強(qiáng)化學(xué)習(xí)效果有限,羅劍嵐卻決心“一條路走到黑”。2020 年,羅劍嵐畢業(yè),Pieter 兩次邀請他加入 Covariant,但他覺得時機(jī)不是特別成熟便婉拒了,想先去谷歌積累經(jīng)驗。加入谷歌后,他先后在 DeepMind、Everyday Robot 和 Google X 工作,跟隨 Stefan Schaal。Stefan Schaal 是諾獎?chuàng)u籃馬普所的創(chuàng)始所長以及機(jī)器人強(qiáng)化學(xué)習(xí)、控制的泰斗人物 ,聯(lián)結(jié)整個歐洲機(jī)器人圈子。羅劍嵐讀著 Stefan 的論文成長,全面掌握了機(jī)器人系統(tǒng)的各個層面,包括從底層動力學(xué)到上層控制的所有知識。
他在谷歌參與的項目孵化為工業(yè)機(jī)器人創(chuàng)企 Intrinsic 后,羅劍嵐決定重返學(xué)術(shù)界,想在回國找教職前先兼職讀一年博士后,便去詢問了在 Google X 期間合作較多的 Sergey。先前合作時,Sergey 訓(xùn)練機(jī)器人幾十個小時以完成簡單任務(wù),而羅劍嵐做插拔等工業(yè)精密任務(wù)的成功率高達(dá) 100%,這讓 Sergey 深刻意識到團(tuán)隊里需要有人既懂機(jī)器人系統(tǒng)又懂 learning,才能將二者結(jié)合。Sergey 熱情表示,二人能力互補(bǔ),提議他全職兩年,羅劍嵐便在 2022 年回到了伯克利。強(qiáng)化學(xué)習(xí)應(yīng)用門檻高,流程易出錯且不穩(wěn)定,用其解決實際任務(wù)一直是 AI 社區(qū)想攻克的難點。因此,在 2023 年 ?6 月,羅劍嵐萌生了提供一個開源的端到端解決方案的想法,包括強(qiáng)化學(xué)習(xí)環(huán)境和機(jī)器人控制器,以便用戶能夠輕松下載并使用,就像使用仿真器訓(xùn)練機(jī)器狗一樣簡單?;谶@一愿景,羅劍嵐主導(dǎo)與斯坦福、華盛頓大學(xué)、谷歌等機(jī)構(gòu)合作,將自己谷歌時期的項目成果在伯克利進(jìn)一步發(fā)展完善,在有視覺信息的情況下,能夠在 20 分鐘內(nèi)學(xué)會一個 100% 成功率的復(fù)雜操控策略,效果顯著。
在有視覺輸入的情況下,真機(jī)強(qiáng)化學(xué)習(xí)訓(xùn)練操控策略基本上已被放棄,但在此工作后,大量的企業(yè)和高校又重新?lián)炱饋磉@個幾乎被放棄的方案,比如 Toyota 研究所、波士頓動力、北大、斯坦福等等。一次徒步時,羅劍嵐和 Sergey 聊起仿真,說如果有 100 億美元,是去建世界上最大最好的仿真器,還是去收集世界最大的數(shù)據(jù)集?兩人同時脫口而出:數(shù)據(jù)集?!胺抡鎸σ苿樱╨ocomotion)很有效,但不是魔法,相對于基于模型的控制,是更好的計算工具。而且移動的模型很簡單,狗是桌子模型、雙足是倒立擺模型,外界的不確定性也有限?!绷_劍嵐認(rèn)為,高性能的操作必須建立在真實數(shù)據(jù)上,“操作的難點在真實世界連續(xù)多樣的變化,以及各種難以計算的復(fù)雜物理,比如物理接觸,柔性物體,尤其是在涉及視覺輸入的情況下,因此重點是設(shè)計出具有高樣本效率的算法,且與硬件和控制器對接無誤?!?/p>
04、具身智能創(chuàng)業(yè)
伯克利的具身智能人才似乎天然具有創(chuàng)業(yè)的基因:國內(nèi),邊塞科技、星動紀(jì)元、星海圖和千尋智能在一年內(nèi)陸續(xù)誕生;國外,除了 2017 年的 Covariant,湯特等人于 2023 年 1 月創(chuàng)立的 Anyware Robotics 也早早入局。湯特在婉拒 Covariant 的邀請后,在發(fā)那科先端研究所鍛煉了四年,作為創(chuàng)始成員領(lǐng)導(dǎo) AI Vision 項目從無到有并實現(xiàn)商業(yè)化。
隨著對機(jī)器人在工業(yè)領(lǐng)域的商業(yè)化落地的認(rèn)識加深,湯特覺得自己的研究基礎(chǔ)加上對工業(yè)領(lǐng)域的理解已成熟,是時候出來創(chuàng)業(yè)了。兩位 MSC Lab 的同門師弟范永祥、周亦揚也有創(chuàng)業(yè)的想法,三人能力互補(bǔ)、一拍即合:湯特擅長模仿學(xué)習(xí)與 3D 視覺;范永祥擅長運動規(guī)劃;周亦揚則專注于自動駕駛。三方面結(jié)合起來,就構(gòu)成了他們機(jī)器人最核心的要素——一套移動機(jī)械臂需要自動駕駛的能力來移動底盤,運動規(guī)劃的能力來進(jìn)行手臂抓取,同時還要有視覺和學(xué)習(xí)的能力來進(jìn)行引導(dǎo)。Anyware Robotics 希望打造重型通用機(jī)器人, 應(yīng)用于物流、生產(chǎn)場景。湯特認(rèn)為,未來將有兩種主要的通用機(jī)器人形態(tài)互為補(bǔ)充,“一種是靈活的人形機(jī)器人,擅長輕任務(wù);另一種則是體型更大、更強(qiáng)壯的輪式機(jī)械臂,擅長執(zhí)行重體力任務(wù)。我們在打造的是后一種通用機(jī)器人。”
作為“伯克利歸國四子”,吳翼、高陽、許華哲、陳建宇的路徑出奇的一致,都是“清華—伯克利—清華叉院”。同在 BAIR 的吳翼、高陽、許華哲座位挨得很近,當(dāng)時 Stuart 組里只有吳翼一個中國學(xué)生,他便總和 Trevor 組里同為零字班的高陽聊天,許華哲來到伯克利后又變成了三人小隊。陳建宇則和許華哲在學(xué)生會干活,時不時一起組織中國留學(xué)生的燒烤局。BAIR 三人常在名為“葫蘆娃”的小群里約著干活后一起去實驗室門口的 food court 吃飯,臨近畢業(yè)時也開始討論對于求職的迷茫與焦慮。作為首批回清華叉院任教的“青椒”,吳翼是最早做出決定的。
從 2016 年暑假首次來到北京的字節(jié) AI Lab 到博士畢業(yè),除了 2017 年在 Facebook 外,吳翼每逢放假都會回國到字節(jié)實習(xí),還在 2018 年暑假轉(zhuǎn)到了核心的搜推組。早期的字節(jié)讓吳翼看到了 2012 年的 Facebook:員工三千,管理扁平,CEO 愛辦 All Hands(全員溝通大會),每周講 all in 短視頻。國內(nèi)互聯(lián)網(wǎng)的朝氣蓬勃讓吳翼決定回國,那就留在字節(jié)嗎?2018 年的字節(jié)處在從傳統(tǒng)系統(tǒng)轉(zhuǎn)向深度學(xué)習(xí)的階段,用大規(guī)模神經(jīng)網(wǎng)絡(luò)做搜推是個不錯的機(jī)會。但經(jīng)歷過 2016 年 3000 人的字節(jié),面對 2018 年的字節(jié),吳翼覺得自己有很多想做的技術(shù)探索,尤其是強(qiáng)化學(xué)習(xí)方向,似乎在當(dāng)時看來很難在一個大廠里實現(xiàn),而直接創(chuàng)業(yè)又沒有特別好的時機(jī)。琢磨一周后,吳翼人生中第一次冒出當(dāng)老師的念頭,想在自己的課題組做強(qiáng)化學(xué)習(xí)。9 月,吳翼聯(lián)系了自己本科畢設(shè)老師徐葳,詢問是否有職位空缺,徐葳回復(fù)說有,并囑咐他盡快回國。10 月,吳翼從美國飛回北京參加面試,在飛機(jī)上趕完了最后一版 PPT。面試結(jié)束后,他進(jìn)到姚期智院士的辦公室,一拿到合同就問簽字的位置,姚先生笑著告訴他,應(yīng)該由自己先簽字。
就這樣,吳翼成了第一個在姚先生辦公室里就即刻簽約入職的“青椒”,也是第一個回姚班教書的姚班畢業(yè)生。吳翼認(rèn)為,自己在學(xué)生時代的特點是涉獵比較廣泛,而強(qiáng)化學(xué)習(xí)又是一個很通用并且能把很多不同方向整合起立的框架,因此希望作為教師組建團(tuán)隊后,同時推進(jìn)語言注入、多智能體強(qiáng)化學(xué)習(xí)算法、機(jī)器人,最后實現(xiàn)一個完整的人機(jī)交互系統(tǒng)?!拔业哪繕?biāo)不是做一個機(jī)器人硬件,而是一個需要承載在硬件上做交互的大腦。”簽約清華后,吳翼跟姚先生提出在美國業(yè)界多待一年半再入職,姚先生爽快答應(yīng)了。起初吳翼想去在學(xué)術(shù)界聲譽(yù)好且發(fā)表論文多的 Google Brain,面試后谷歌對吳翼也很滿意,不過由于吳翼坦誠只能干一年,headcount 緊張的谷歌需要花時間走內(nèi)部流程。
與此同時,曾與吳翼合作過的 Bob McGrew 給他打電話,邀請他下周入職 OpenAI,吳翼希望多等谷歌一個月,Bob 也同意稍后再溝通。2018 年平安夜前一天,Bob 再次聯(lián)系吳翼,問他考慮得如何。吳翼便決定不等谷歌,去 OpenAI,就這樣成為了多智能體研究組的一員。在 OpenAI,吳翼加入了智能體玩捉迷藏的項目,讓智能體分成紅藍(lán)兩隊進(jìn)行游戲。研究顯示,只用簡單的+1/-1獎勵機(jī)制和大規(guī)模的強(qiáng)化學(xué)習(xí),智能體也能自行進(jìn)化,掌握工具使用,并發(fā)展出六種不同的策略和對策。為了衡量智能體行為的復(fù)雜度,團(tuán)隊還設(shè)計了五種測試,所有通過強(qiáng)化學(xué)習(xí)訓(xùn)練的智能體在測試中都達(dá)到了最高分。這意味著,多智能體強(qiáng)化學(xué)習(xí)加上復(fù)雜的模擬環(huán)境可以產(chǎn)生類似人類的智能行為。此工作一經(jīng)發(fā)布便獲得了大量關(guān)注,其官方視頻至今仍是 OpenAI 在 YouTube 播放量的榜首。
2019 年,吳翼一邊在 OpenAI 工作,一邊開始招首批博士生。一人做語言注入,強(qiáng)化學(xué)習(xí)加語言;一人做強(qiáng)化學(xué)習(xí)+機(jī)器人+控制;還有一人是電子系汪玉老師的博士生,和吳翼聯(lián)合指導(dǎo),做多智能體學(xué)習(xí)。年末,Bob 在內(nèi)部評審會時建議吳翼多待兩年,給他升職發(fā)股權(quán),畢竟他入職時 OpenAI 還是個沒有股份的 NGO。吳翼卻覺得發(fā)股權(quán)對自己意義不大,還是得回清華當(dāng)老師。
回到清華開始自己做機(jī)器人后,吳翼深刻體會到硬件之難,“以前伯克利路線是較 AI 驅(qū)動而非傳統(tǒng)硬件驅(qū)動,剛開始上真機(jī)踩了不少坑?!北藭r吳翼的高中與伯克利師兄、時任字節(jié) AI Lab 總監(jiān)的李磊也想做 AI 機(jī)器人,和吳翼一拍即合,決定一起學(xué)習(xí)、踩坑。吳翼帶著學(xué)生李云飛和字節(jié)合作,從頭開始搭建了機(jī)械臂、足式機(jī)器人等軟硬件設(shè)施。經(jīng)吳翼推薦,李云飛還到 Covariant 實習(xí),讓段巖幫忙培訓(xùn)培訓(xùn)。最早回國的吳翼也是最早開始商業(yè)化嘗試的。2020 年在上海期智研究院成為項目負(fù)責(zé)人后,吳翼有了更大的探索空間,在姚先生的大力支持下,吳翼根據(jù)自己在 OpenAI 的經(jīng)驗和自己的認(rèn)知,想做全棧且和工程結(jié)合的研究,于是 2021 年在上海期智研究院組建了專注于大規(guī)模強(qiáng)化學(xué)習(xí)技術(shù)研究的科研團(tuán)隊。
一次和網(wǎng)易的合作,吳翼發(fā)現(xiàn)團(tuán)隊已具備充足的能力,就決定用商業(yè)化公司的方式最大化強(qiáng)化學(xué)習(xí)技術(shù)的商業(yè)影響力,恰好碰上疫情爆發(fā),封控結(jié)束后就遇上了大模型的浪潮?!斑€是很幸運吧,回顧以往,做的選擇都很隨機(jī)?!?023 年 5 月,吳翼團(tuán)隊孵化成立了邊塞科技,目標(biāo)是用強(qiáng)化學(xué)習(xí)為更多人創(chuàng)造更好的智能體驗。在一眾伯克利博士+清華叉院教職的創(chuàng)業(yè)者里,邊塞科技是唯一不涉及機(jī)器人硬件的?!八惴?、應(yīng)用、多模態(tài)融合以及硬件都很重要,”吳翼拆解自己的宏觀愿景,“但是人不能追求高而全,還是要先去最好自己擅長的事情,硬件的環(huán)節(jié)我不是專家,算法、成本、供應(yīng)鏈都有很多要學(xué)習(xí)和探索的部分,因此就不在公司里面商業(yè)化運營了,機(jī)器人就研究院做技術(shù)研究?!钡诙€確定入職清華的是高陽。
2018 年,姚期智院士到伯克利招聘,和高陽簡單交流后熱情邀請他回國面試。此前高陽主要在美國面試公司,沒考慮過回國當(dāng)老師,但既然有面試機(jī)會,便決定試一試。12 月 31 日,高陽在清華進(jìn)行了兩場學(xué)術(shù)報告后的當(dāng)晚,就收到了叉院 offer?;鹚俚绞值?offer 出乎了高陽的預(yù)料,經(jīng)過 2 個月的深思熟慮,他決定拒絕 Waymo、Nuro、Aurora 等多家自動駕駛公司的 offer,回國教書。此時已是高陽博士生活的最后一年,自動駕駛在學(xué)術(shù)界能做的探索已基本完結(jié),去到清華能做什么呢?回到伯克利,高陽參加了 Jitendra Malik 和 Alexei Efros 等多位視覺教授的組會,聊起人的智能如何進(jìn)化而來的哲學(xué)問題。大家認(rèn)為,五指靈巧手能進(jìn)行復(fù)雜物理操作,為智能的發(fā)展提供了基礎(chǔ),因此猴比貓狗智能;而貓狗之間,狗的群居特性促進(jìn)了溝通的發(fā)展,使得狗與人社交時強(qiáng)于貓——因此,智能產(chǎn)生的本源,是和現(xiàn)實物理世界產(chǎn)生交互(與環(huán)境、與人類、與機(jī)器人本身)??吹骄呱碇悄茏鳛榇笥锌蔀榍疑刑幊跫夒A段,很自然地,高陽想到把自己做自動駕駛的技能轉(zhuǎn)到通用機(jī)器人上。
除了鉆研已久的感知外,為了繼續(xù)提高對決策的了解,高陽向 Pieter Abbeel 提出自己將去清華任教,計劃做機(jī)器人的研究,想先到他的組里做一年博士后,還分享了很多想做的題目。Pieter 也想把更高級的視覺技術(shù)引入強(qiáng)化學(xué)習(xí)里,便爽快答應(yīng)了。在機(jī)器人領(lǐng)域,傳統(tǒng)的輸入并非基于純視覺信息/場景圖像,而是基于對物理世界的低維表征,例如物體的 XY 坐標(biāo)。高陽與 Pieter 的合作便是針對從高維度的視覺數(shù)據(jù)中提取對決策有用的信息這項極具挑戰(zhàn)的工作,其中最知名的 Efficient Zero 項目更是將這一研究方向推向了極致,并提高強(qiáng)化學(xué)習(xí)的樣本效率。與喜歡在半小時內(nèi)高強(qiáng)度輸出的 Sergey 不同,Pieter 則更關(guān)注宏觀層面,不討論具體技術(shù)細(xì)節(jié),而根據(jù)自己的經(jīng)驗給出方向是否有前景的反饋。
適應(yīng)了一陣后,高陽逐漸領(lǐng)悟到宏觀指導(dǎo)實際上是優(yōu)秀導(dǎo)師的理想狀態(tài),科研的品味與獨立性也得到了提升。2020 年 8 月,高陽入職清華叉院任助理教授,聚焦計算機(jī)視覺與機(jī)器人結(jié)合領(lǐng)域,探索強(qiáng)化學(xué)習(xí)在機(jī)器人領(lǐng)域的應(yīng)用,讓機(jī)器人通過 “看” 操縱周圍事物。強(qiáng)化學(xué)習(xí)應(yīng)用于現(xiàn)實世界需解決數(shù)據(jù)匱乏和缺少監(jiān)督信號兩大難題,高陽團(tuán)隊也基于此開展了一系列工作,比如從2D人類視頻中學(xué)習(xí)機(jī)器人動作策略的 ATM、具身大模型框架 ViLa 和 CoPa 等。高陽想實現(xiàn)的終極場景是,在物理實體上實現(xiàn)科學(xué)研究中的算法,建立一個可以“用眼睛看”并服務(wù)于家庭場景的機(jī)器人,如告訴機(jī)器人“做一杯咖啡”,它就會走到咖啡機(jī)前,進(jìn)行磨豆子、拉花等一系列操作。去年年中,在看到大模型和具身智能領(lǐng)域的變革后,高陽決定創(chuàng)業(yè)。他清楚具身智能產(chǎn)品必須是軟硬件結(jié)合的解決方案,自己雖有多年 AI 軟件經(jīng)驗,但缺乏硬件和商業(yè)化背景,就開始尋找既懂硬件也懂機(jī)器人落地瓶頸的合伙人。在共友的牽線下,高陽結(jié)識了前珞石機(jī)器人 CTO 韓峰濤,后者有十余年機(jī)器人行業(yè)經(jīng)驗,不僅很懂硬件,還做過 1000 多個落地場景,對于各場景的卡點到底在軟件還是硬件非常清楚。而韓峰濤也有創(chuàng)業(yè)打算,在找 AI 人才,兩人能力互補(bǔ)、一拍即合,便決定一起創(chuàng)業(yè)。
今年 2 月,千尋智能成立,做具身智能基座大模型,是國內(nèi)少數(shù)選擇端到端技術(shù)路線的具身智能創(chuàng)企,選擇輪式+雙臂的方案。入局創(chuàng)業(yè)后,高陽對技術(shù)路徑與團(tuán)隊協(xié)作也有了新的認(rèn)識,在最近的兩次美國之行中,高陽還分別和 Deepak 與 Sergey 交流了 Skild AI 和 Physical Intelligence 的發(fā)展情況,還聊到了具身大模型的未來,包括其構(gòu)建方法、面臨的挑戰(zhàn)以及所需的數(shù)據(jù)量等關(guān)鍵話題。
至于比吳翼、高陽小兩屆的許華哲,也在 2022 年夏天回到了清華。一年前,許華哲從伯克利畢業(yè),來到斯坦福的吳佳俊小組讀博士后。吳佳俊也對機(jī)器人很感興趣,彼時組里正在進(jìn)行讓機(jī)器人捏橡皮泥、學(xué)會彈塑性物體操作任務(wù)的項目。過年期間,許華哲和好友包餃子慶祝春節(jié),突然意識到如果讓機(jī)器人學(xué)會餃子的世界模型,就能使一個機(jī)械臂獨立完成包餃子的步驟。于是,幾人搭好工具庫和廚房后,讓機(jī)器人隨機(jī)選擇工具與面團(tuán)任意互動以采集數(shù)據(jù)。加上訓(xùn)練的工具分類網(wǎng)絡(luò)、機(jī)器人策略網(wǎng)絡(luò)以及視覺反饋作為新的感知信息輸入,機(jī)器人能在有干擾的情況下使用工具包餃子,文章也被機(jī)器人學(xué)頂會 RSS 2022 所接收。
在斯坦福時,許華哲就拿到了叉院的 offer。剛回國時,許華哲發(fā)現(xiàn)具身智能的概念在國內(nèi)很少人買賬,清華里研究機(jī)器人的依舊是以傳統(tǒng) MPC 等方法為主的自動化系。許華哲希望做出可以決策的機(jī)器人或智能體,便成立了自己的實驗室,在次年正式命名為具身智能實驗室,以包含視觸覺的機(jī)器人泛化靈巧操作和控制為長,也探索 DRL 在實際機(jī)器人復(fù)雜任務(wù)中的應(yīng)用。許華哲支持學(xué)生們?nèi)L試各種奇思妙想,上課很有熱情,課堂教學(xué)評價常排在前 5%,被吳翼稱之為“經(jīng)典的伯克利 Style”和“當(dāng)老師的料”。他選擇加入星海圖的那天,恰逢十一假首日,正帶著組里的博士生去郊游。許華哲合流星海圖其實是個巧合:他看到具身智能的機(jī)會后想自己創(chuàng)業(yè),聽聞趙行已開始,便來咨詢心路歷程和時間節(jié)點。而星海圖在籌建期,趙行就拉上許華哲和高繼揚一起吃飯,大家聊得投機(jī),想法高度契合,許華哲絲滑加入,負(fù)責(zé)帶領(lǐng)操作團(tuán)隊,同樣采取輪式+雙臂的構(gòu)型方案。
除了“葫蘆娃”三人外,MSC Lab 的陳建宇則在 2020 年末入職叉院。此時正值疫情爆發(fā),陳建宇在暑假的面試還得線上進(jìn)行?;貒蟮那皟赡昀?,陳建宇除了延續(xù)無人駕駛的工作外,也開拓了包括機(jī)械臂、輪式、四足等多形態(tài)的機(jī)器人方向,并在 2022 年的春夏之交開始自己做人形,研究更通用的具身智能?!盁o人車的技術(shù)和產(chǎn)業(yè)格局已初步成型,所以想轉(zhuǎn)新的大方向?!睂﹃惤ㄓ疃?,在新領(lǐng)域做開創(chuàng)性工作吸引力太大,“我本科做過雙足,一直關(guān)注人形的動態(tài),當(dāng)有了自己的課題組和研究資源,并花時間琢磨技術(shù)架構(gòu)后,發(fā)現(xiàn)是可行的?!痹趯嶒炇已芯侩p足人形的陳建宇逐漸發(fā)現(xiàn)其具有能改變世界的產(chǎn)業(yè)價值,可改變世界不能僅靠在實驗室做 demo ,得借助更多商業(yè)化、產(chǎn)品化手段,而公司能吸納社會資本,招聘、股份激勵等更寬松。隨著小米、特斯拉等產(chǎn)業(yè)界代表的入局與 ChatGPT 的誕生,陳建宇意識到是時候了——2023 年 8 月,星動紀(jì)元創(chuàng)立。
涉獵過包括無人車等多種形態(tài)的機(jī)器人后,陳建宇認(rèn)為,不同形態(tài)之間沒有本質(zhì)上的區(qū)別,很多原理是相通的,但若想實現(xiàn)智能,必須一開始就做最終極的人形(雙手和雙腿),“可以在過程中輻射其他形態(tài),但不能從開始就降低天花板?!痹谟布矫?,業(yè)界對于如何制造高爆發(fā)力雙腿和靈巧手尚無統(tǒng)一的解決方案。陳建宇團(tuán)隊就先從腿部開始,從前兩代的 MPC 逐步升級到 2023 年以強(qiáng)化學(xué)習(xí)為核心的步態(tài)行走網(wǎng)絡(luò),讓機(jī)器人能在雪地、長城、戈壁灘等復(fù)雜路面上穩(wěn)定快速行走。至于手部設(shè)計,陳建宇選擇了一條與眾不同的路徑:縮小腿部關(guān)節(jié)應(yīng)用在手部上,以實現(xiàn)更精細(xì)的操作和更高的靈活性。因此,他們的靈巧手為全驅(qū)動,擁有超過十個主動自由度,而特斯拉的手部僅有六個。
05、結(jié)語
回到 2017 年伯克利的深度強(qiáng)化學(xué)習(xí)課堂上,對于幾位中國 90 后而言,熱點方向緊密發(fā)生在身邊,可第一時間和作者們面對面交流切磋甚至參與其中,無疑是興奮與享受的。
彼時具身智能(Embodied Intelligence)還不是熱詞,機(jī)器人學(xué)習(xí)(Robot Learning)隨著深度學(xué)習(xí)范式的興起開啟了新的一頁,在感知有所突破后,AI 和 Robotics 開始雙向奔赴。他們隱隱感覺到:下個十年的機(jī)會來了。段巖、陳曦、張?zhí)旌?、吳翼、高陽、許華哲、陳建宇、湯特、羅劍嵐......從深度強(qiáng)化學(xué)習(xí)出發(fā)的伯克利一派,以先驅(qū)者之勢火速突破上層感知,讓機(jī)器人真正開始具備類人的學(xué)習(xí)能力。
更重要的是,在得益于 AI 之強(qiáng)勢時,他們也清楚地意識到硬件和底層控制的價值,無論是計算機(jī)系還是機(jī)械工程系,都在往交叉點靠攏,追求全棧式覆蓋。最合適沖浪的波浪周期為 8-16 秒,對于伯克利派系而言,深度強(qiáng)化學(xué)習(xí)的浪從十年前開始,站在浪尖上的他們,此刻正踏著具身智能的波峰,再望向下一朵浪。
關(guān)于具身智能領(lǐng)域的更多精彩群像故事,歡迎添加作者微信 anna042023 交流。