加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • 01.看見世界理解世界,是智能的催化劑
    • 02.三股力量推動(dòng)AI時(shí)代到來不可能已成為可能
    • 03.看見世界遠(yuǎn)遠(yuǎn)不夠空間智能讓看見變?yōu)樾袆?dòng)
    • 04.空間智能已取得初步進(jìn)展機(jī)器人可以給你做飯了
    • 05.空間智能未來可期能在醫(yī)療等領(lǐng)域發(fā)揮重要作用
    • 06.數(shù)字生命寒武紀(jì)大爆發(fā)即將到來,但必須確保技術(shù)始終以人為本
    • 07.結(jié)語:空間智能開啟AI發(fā)展新篇章或成下一代AI的“原爆點(diǎn)”
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

頂尖AI科學(xué)家李飛飛演講:機(jī)器人進(jìn)化離不開空間智能

06/05 09:20
1635
閱讀需 14 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

編譯?|??陳駿達(dá)

編輯?|??Panken

著名計(jì)算機(jī)科學(xué)家李飛飛在她最新的TED演講中,分享了關(guān)于空間智能及其改變世界的力量的看法。

智東西6月4日消息,今年4月,著名計(jì)算機(jī)科學(xué)家、斯坦福教授,有“AI教母”之稱的李飛飛在溫哥華舉行的2024年TED大會(huì)上,發(fā)表了以《有了空間智能,AI將會(huì)理解現(xiàn)實(shí)世界》為題的15分鐘演講,分享了她關(guān)于空間智能及其改變世界的力量的看法。值得一提的是,李飛飛在斯坦福大學(xué)的個(gè)人資料顯示,她從2024年初到2025年底處于部分休假狀態(tài)。據(jù)路透社報(bào)道,目前她正在創(chuàng)辦一家初創(chuàng)公司,創(chuàng)業(yè)的方向正是空間智能。李飛飛在演講中提到,隨著神經(jīng)網(wǎng)絡(luò)算法的出現(xiàn)、GPU能力的提升,加上大數(shù)據(jù)的助力,計(jì)算機(jī)視覺領(lǐng)域?qū)崿F(xiàn)了快速的發(fā)展。目前,研究者們已經(jīng)不滿足于僅僅讓計(jì)算機(jī)看見世界,而是追求讓計(jì)算機(jī)理解世界,在觀察世界這個(gè)三維空間的過程中學(xué)習(xí)知識(shí)并做出行動(dòng)。這便是所謂的“空間智能”(Spatial Intelligence)。李飛飛指出,行動(dòng)的沖動(dòng)是所有具有空間智能的生物的天性。如果想讓目前的AI實(shí)現(xiàn)能力上的突破,完全發(fā)揮出當(dāng)下這場(chǎng)數(shù)字寒武紀(jì)大爆發(fā)的潛力,空間智能是必不可少的。同時(shí),她也提醒道,要實(shí)現(xiàn)空間智能并不容易。開發(fā)者需要深思熟慮,確保AI技術(shù)始終以人為本。但如果我們真的能開發(fā)出造福人類的空間智能計(jì)算機(jī)與機(jī)器人,我們定能創(chuàng)造出一個(gè)更為美好的世界。以下是李飛飛四月份TED演講的完整編譯:

01.看見世界理解世界,是智能的催化劑

我要展示的是一片虛無。這就是5.4億年前的世界:純粹的、無盡的黑暗。世界一片漆黑并不是因?yàn)槿狈饩€,而是因?yàn)槿狈δ芸匆娺@個(gè)世界的眼睛。

在這個(gè)世界里,陽光能穿透到一公里深的海底,海底熱液噴口也正散發(fā)著光芒,生命在這里蓬勃發(fā)展。但在這些古老的水域中,卻沒有一只眼睛能夠看到這些景象。沒有視網(wǎng)膜,沒有角膜,沒有晶狀體。所有這些光芒,所有這些生命都無人見證。在過去,“看”這一概念并不存在,沒有生物真的看到過世界。直到這個(gè)時(shí)刻的到來。

三葉蟲出現(xiàn)了,這是地球上第一種能夠感知光的生物。它們出現(xiàn)的原因我們目前也才略知一二。但它們是我們現(xiàn)在習(xí)以為常的生活環(huán)境中的第一批棲息者,也是第一批發(fā)現(xiàn)除了自己外還有其他事物存在的生物。它們意識(shí)到,世界是由許多其它“自我”組成的。視覺被認(rèn)為是寒武紀(jì)生命大爆發(fā)背后的推手。這是一個(gè)動(dòng)物物種大量進(jìn)入化石記錄的時(shí)期。最初,這些動(dòng)物只是被動(dòng)地接受光線,逐漸演變成更為主動(dòng)的行為。神經(jīng)系統(tǒng)開始進(jìn)化。視力轉(zhuǎn)化為洞察力,理解轉(zhuǎn)化為行動(dòng),這一切催生了智能。

02.三股力量推動(dòng)AI時(shí)代到來不可能已成為可能

現(xiàn)在,我們不再滿足于僅僅依靠自然賦予我們的視覺智能。好奇心驅(qū)使我們創(chuàng)造出和我們一樣甚至更聰明的機(jī)器。九年前,在這個(gè)舞臺(tái)上,我匯報(bào)了計(jì)算機(jī)視覺這一AI分支領(lǐng)域的早期進(jìn)展。當(dāng)時(shí),有三股強(qiáng)大的力量首次匯聚在一起:第一股力量是一種被稱為神經(jīng)網(wǎng)絡(luò)的算法家族;第二股力量是快速的專用計(jì)算硬件,也就是GPU;第三股力量是大數(shù)據(jù),比如我的實(shí)驗(yàn)室當(dāng)時(shí)花了數(shù)年時(shí)間構(gòu)建出來的ImageNet圖片數(shù)據(jù)庫。這三股力量一同推動(dòng)了AI時(shí)代的到來。

我們現(xiàn)在已經(jīng)有了長(zhǎng)足進(jìn)步。當(dāng)時(shí),單單是給圖片打上標(biāo)簽就是一個(gè)重大的突破。但這些算法的速度和準(zhǔn)確度迅速提高。由我的實(shí)驗(yàn)室主導(dǎo)的年度ImageNet挑戰(zhàn)賽評(píng)估了這一進(jìn)展。在這個(gè)圖表上,你可以看到每年的改進(jìn)和具有里程碑意義的模型。

我們更進(jìn)一步,創(chuàng)建了能夠分割對(duì)象或預(yù)測(cè)它們之間動(dòng)態(tài)關(guān)系的算法,這一算法是我的學(xué)生和合作者們的工作成果。不僅如此,還記得上次我展示的第一個(gè)能用自然語言描述照片的計(jì)算機(jī)視覺算法嗎?那是我和我杰出的學(xué)生Andrej Karpathy合作的成果。當(dāng)時(shí),我碰運(yùn)氣般地問他:“Andrej,我們能讓計(jì)算機(jī)做相反的操作嗎?”Andrej笑著說:“哈哈,那是不可能的?!钡邕@篇推文中所說的,不久前,不可能的事情變成了可能。

這要?dú)w功于一系列擴(kuò)散模型,它們推動(dòng)了如今生成式AI算法的發(fā)展。這些算法可以根據(jù)人類提示的句子生成全新的照片和視頻。許多人已經(jīng)看到了OpenAISora最近令人印象深刻的成果。但即便沒有大量的GPU,我的學(xué)生和我們的合作者也開發(fā)出了一個(gè)叫做Walt的生成視頻模型。我們模型的發(fā)布時(shí)間領(lǐng)先Sora數(shù)月。你現(xiàn)在看到的是其中一些生成結(jié)果。

這些結(jié)果還有改進(jìn)的空間。看看那只貓的眼睛,還有貓雖然在水下但卻沒有打濕自己。這真是一場(chǎng)災(zāi)難(cat-astrophe)。

03.看見世界遠(yuǎn)遠(yuǎn)不夠空間智能讓看見變?yōu)樾袆?dòng)

過去僅僅是序章,我們將從這些錯(cuò)誤中學(xué)習(xí),創(chuàng)造我們想象中的未來。在這個(gè)未來中,我們希望AI能幫我們完成一切事情,或者擁有幫助我們完成一切事情的能力。數(shù)年來我一直在強(qiáng)調(diào),拍下一張照片并不等于看見和理解所拍的內(nèi)容。而今天我還想補(bǔ)充一點(diǎn),僅僅是看見還遠(yuǎn)遠(yuǎn)不夠。

看是為了做和學(xué)。當(dāng)我們?cè)谌S空間和時(shí)間中對(duì)這個(gè)世界采取行動(dòng)時(shí),我們也在學(xué)習(xí)。我們?cè)趯W(xué)習(xí)如何更好地看和做。自然創(chuàng)造了這個(gè)由“空間智能”(Spatial Intelligence)驅(qū)動(dòng)的良性循環(huán)。

行動(dòng)的沖動(dòng)是所有具有空間智能的生物的天性,它將感知與行動(dòng)聯(lián)系在一起。如果我們想要推動(dòng)AI超越當(dāng)前的能力水平,我們需要的不僅是能看和說的AI。我們需要能做出行動(dòng)的AI。

04.空間智能已取得初步進(jìn)展機(jī)器人可以給你做飯了

實(shí)際上,我們正在取得令人興奮的進(jìn)展。最近在空間智能方面的里程碑時(shí)間是教會(huì)計(jì)算機(jī)觀察、學(xué)習(xí)、做出行動(dòng)以及更好地學(xué)習(xí)和做出行動(dòng)。這并不容易。自然界花費(fèi)了數(shù)百萬年時(shí)間才進(jìn)化出了空間智能。這種智能需要依靠眼睛接收光線,將二維圖像投射到視網(wǎng)膜上,然后讓大腦將這些數(shù)據(jù)轉(zhuǎn)換為三維信息。直到最近,谷歌的一組研究人員才開發(fā)出一種算法,可以將一組照片轉(zhuǎn)化為三維空間。

這些都是未來種種可能性的萌芽。一個(gè)可以將我們整個(gè)世界轉(zhuǎn)化為數(shù)字形式,并通過建模展現(xiàn)出這個(gè)世界的豐富與參差的未來。自然在我們各自的心智中隱秘地完成了這些事情。而空間智能技術(shù)有望能為我們的集體意識(shí)實(shí)現(xiàn)這點(diǎn)。隨著空間智能的進(jìn)展加速,一個(gè)新的良性循環(huán)正在我們眼前展開。這種相互作用正在催化機(jī)器人學(xué)習(xí)。這是任何需要理解和與三維世界互動(dòng)的具身智能系統(tǒng)的關(guān)鍵組成部分。十年前,我的實(shí)驗(yàn)室的ImageNet數(shù)據(jù)庫幫助訓(xùn)練計(jì)算機(jī),讓它們有了看的能力?,F(xiàn)在,我們正在用行為和動(dòng)作來訓(xùn)練計(jì)算機(jī)和機(jī)器人,讓它們具備在三維世界里行動(dòng)的能力。但我們并不收集靜態(tài)圖像,而是開發(fā)了由三維空間模型驅(qū)動(dòng)的模擬環(huán)境,使計(jì)算機(jī)能夠在無限多樣的可能性中學(xué)習(xí)行動(dòng)。你現(xiàn)在看到的是一個(gè)由我的實(shí)驗(yàn)室領(lǐng)導(dǎo)的Behavior項(xiàng)目中的機(jī)器人學(xué)習(xí)示例。

我們還在機(jī)器人的語言智能方面取得了令人興奮的進(jìn)展。我的學(xué)生和合作者們是第一批在這方面取得進(jìn)展的團(tuán)隊(duì)。利用基于大型語言模型的輸入,他們研發(fā)的機(jī)械臂現(xiàn)在能夠根據(jù)口頭指令執(zhí)行各種任務(wù)。

例如,打開抽屜或拔出充電的手機(jī),或者用面包、生菜、西紅柿做個(gè)三明治,甚至為用戶放上餐巾紙。通常,我會(huì)想要在三明治里多放點(diǎn)料,但這是個(gè)好的開始。

05.空間智能未來可期能在醫(yī)療等領(lǐng)域發(fā)揮重要作用

在遠(yuǎn)古時(shí)代,在那片原始的海洋中,看見和感知環(huán)境的能力開啟了寒武紀(jì)大爆發(fā)的序幕,不同的生命形式開始互動(dòng)。如今,那束光芒正在觸及數(shù)字大腦??臻g智能不僅讓機(jī)器能夠與其它機(jī)器互動(dòng),還能讓它們與人類以及真實(shí)或虛擬的三維世界互動(dòng)。隨著這種未來逐漸變?yōu)楝F(xiàn)實(shí),它將對(duì)許多人的生活產(chǎn)生深遠(yuǎn)的影響。讓我們以醫(yī)療為例。在過去的十年里,我的實(shí)驗(yàn)室一直在應(yīng)用AI,解決患者預(yù)后效果不佳和醫(yī)務(wù)人員過勞的問題。我們與斯坦福醫(yī)學(xué)院和合作醫(yī)院的工作人員展開合作,正在試點(diǎn)使用智能傳感器。這些傳感器可以檢測(cè)醫(yī)務(wù)人員進(jìn)入病房時(shí)是否正確洗手,還能跟蹤手術(shù)器械,或者在患者處于危險(xiǎn)(如跌倒)時(shí)提醒護(hù)理團(tuán)隊(duì)。

我們將這些技術(shù)視為一種環(huán)境智能,就像一雙額外的眼睛。它們確實(shí)能起到一些作用。但我希望對(duì)我們的患者、醫(yī)務(wù)人員和護(hù)理人員提供更多互動(dòng)式的幫助,他們正迫切地需要一個(gè)能真正做點(diǎn)事情的幫手。想象一下,如果有了能運(yùn)送醫(yī)療用品的自主機(jī)器人,護(hù)理人員就只需專注于患者。利用增強(qiáng)現(xiàn)實(shí)技術(shù),我們也能引導(dǎo)外科醫(yī)生進(jìn)行更安全、更快和創(chuàng)傷更小的手術(shù)。想象一下,嚴(yán)重癱瘓的患者通過腦電波控制機(jī)器人,完成我們司空見慣的日常任務(wù)。是的,通過腦電波就可以。大家可以在我實(shí)驗(yàn)室最近的一項(xiàng)試點(diǎn)研究中,看到這一未來的雛形。

在這個(gè)例子中,機(jī)械臂的控制是通過非侵入性的腦電帽收集的腦電波信號(hào)實(shí)現(xiàn)的。這個(gè)機(jī)械臂現(xiàn)在正在烹飪一頓壽喜燒。

06.數(shù)字生命寒武紀(jì)大爆發(fā)即將到來,但必須確保技術(shù)始終以人為本

五億年前,視覺的出現(xiàn)徹底顛覆了原本那一片漆黑的世界。它開啟了一場(chǎng)影響最深遠(yuǎn)的進(jìn)化過程:動(dòng)物世界中智能的發(fā)展。過去十年中,AI的驚人進(jìn)步同樣令人震撼。但我相信,如果我們想要完全發(fā)揮這場(chǎng)數(shù)字寒武紀(jì)大爆發(fā)的潛力,我們就必須為計(jì)算機(jī)和機(jī)器人提供空間智能。這也正是自然界為我們提供的東西。這是一個(gè)激動(dòng)人心的時(shí)刻,我們可以教我們的數(shù)字伙伴學(xué)會(huì)推理,教會(huì)他們與我們稱之為家園的三維空間互動(dòng),并創(chuàng)造更多我們可以探索的新世界。實(shí)現(xiàn)這一未來并不容易。我們需要大家在采取行動(dòng)時(shí)深思熟慮,開發(fā)始終以人為本的技術(shù)。但如果我們能以正確的方式推進(jìn)技術(shù)的發(fā)展,這些具備空間智能的計(jì)算機(jī)和機(jī)器人將不僅僅只是實(shí)用的工具,還將成為可信賴的伙伴,提升和增強(qiáng)我們的生產(chǎn)力,促進(jìn)人類社會(huì)的發(fā)展。它們也將尊重人類個(gè)體的尊嚴(yán),促進(jìn)人類的共同繁榮。

最令我興奮的,是這樣的一個(gè)未來:AI將擁有更強(qiáng)的理解能力、洞察能力和空間感知能力,并與我們一起不斷努力,以更好的方式創(chuàng)造出一個(gè)更美好的世界。謝謝。

07.結(jié)語:空間智能開啟AI發(fā)展新篇章或成下一代AI的“原爆點(diǎn)”

在九年前的TED演講中,李飛飛介紹了ImageNet這一深度學(xué)習(xí)爆發(fā)的起點(diǎn),這也為當(dāng)代AI奠定了基礎(chǔ)。如今,她再次站在TED的舞臺(tái)上,闡釋了“空間智能”這一全新概念,指引AI朝著更高境界邁進(jìn)。李飛飛本人曾在多個(gè)場(chǎng)合指出,AI學(xué)術(shù)界能獲得的資源實(shí)在是太有限了。她呼吁政府能為學(xué)術(shù)界提供必要的支持,以促進(jìn)AI研究的發(fā)展。現(xiàn)在,李飛飛已暫離象牙塔,下場(chǎng)創(chuàng)業(yè),并拿到了硅谷知名風(fēng)投公司a16z的投資。我們也期待她能在學(xué)界之外,給AI領(lǐng)域帶來新的驚喜。

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
DSPIC33EP512MU810-I/PT 1 Microchip Technology Inc 16-BIT, FLASH, 60 MHz, MICROCONTROLLER, PQFP100, 12 X 12 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100
$10.04 查看
ATTINY85-20SU 1 Microchip Technology Inc IC MCU 8BIT 8KB FLASH 8SOIC

ECAD模型

下載ECAD模型
$1.83 查看
P82B715TD,118 1 NXP Semiconductors P82B715 - I2C-bus extender SOIC 8-Pin

ECAD模型

下載ECAD模型
$4.97 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜