看似好做的GPT機(jī)器人,不是人人都有“入場(chǎng)券”。
近期,接入GPT的阿梅卡(Ameca)機(jī)器人的問(wèn)答視頻火遍全網(wǎng),讓人不禁震驚:“機(jī)器人的GPT時(shí)刻來(lái)了?”
當(dāng)被問(wèn)到開(kāi)心事時(shí),這個(gè)英國(guó)人形娛樂(lè)機(jī)器人公司Engineered Arts打造的機(jī)器人眨著眼睛并面露激動(dòng)地說(shuō)“誕生那一刻”讓她開(kāi)心;被問(wèn)到“一生中最悲傷的一天”,阿梅卡眉頭緊鎖回答:“我意識(shí)到我永遠(yuǎn)不會(huì)像人類能體驗(yàn)到真愛(ài)、陪伴或簡(jiǎn)單的生活樂(lè)趣,這是一件令人沮喪的事情?!?/p>
阿梅卡為我們描繪了一個(gè)未來(lái)機(jī)器人的粗略輪廓,背后,類GPT技術(shù)正讓機(jī)器人第一次真正睜眼看世界。
類GPT技術(shù)為方興未艾的機(jī)器人行業(yè)帶來(lái)革命性力量。根據(jù)中信證券報(bào)告,ChatGPT 與機(jī)器人的結(jié)合,將彌補(bǔ)當(dāng)前機(jī)器人在智能性、易用性、經(jīng)濟(jì)性上的短板,有效提升機(jī)器人在各個(gè)行業(yè)的滲透率。
微軟聯(lián)合創(chuàng)始人比爾·蓋茨近期說(shuō)GPT模型是“40多年來(lái)最革命性技術(shù)進(jìn)步”。聚焦到機(jī)器人領(lǐng)域,獵戶星空董事長(zhǎng)傅盛此前發(fā)文稱:“GPT-4發(fā)布世界要變了!每個(gè)人都要關(guān)心?!?/p>
那么類GPT技術(shù)為機(jī)器人產(chǎn)業(yè)帶來(lái)了哪些肉眼可見(jiàn)的機(jī)會(huì)?什么樣的機(jī)器人企業(yè)能夠抓住GPT時(shí)代的機(jī)遇?縱觀行業(yè),服務(wù)機(jī)器人賽道又會(huì)出現(xiàn)什么樣的范式變革?通過(guò)對(duì)話國(guó)內(nèi)AI服務(wù)器機(jī)器人領(lǐng)軍企業(yè)獵戶星空業(yè)務(wù)策略負(fù)責(zé)人劉宇翔,本文對(duì)此進(jìn)行了深入探討。
GPT引發(fā)機(jī)器人行業(yè)沸騰“假聰明”退出歷史舞臺(tái)
“心情非常激動(dòng),NLP(自然語(yǔ)言處理)長(zhǎng)期短板限制被打破了,ChatGPT不是鸚鵡學(xué)舌式的‘假聰明’,而是像人一樣去理解材料和對(duì)話,對(duì)機(jī)器人行業(yè)會(huì)是一個(gè)非常大的突破?!眲⒂钕柙谌ツ甑捉佑|了對(duì)話機(jī)器人ChatGPT,他對(duì)智東西這樣談到親身體驗(yàn)。
另一國(guó)內(nèi)知名機(jī)器人企業(yè)的語(yǔ)音技術(shù)科學(xué)家也有同感:“去年11月30日,看到ChatGPT的驚艷表現(xiàn)后,我們意識(shí)到AI真正賦能到各行各業(yè),服務(wù)機(jī)器人走進(jìn)千家萬(wàn)戶的時(shí)間到了?!?/p>
實(shí)際上,很多產(chǎn)業(yè)人可能了解,阿梅卡只能算描繪了未來(lái)理想機(jī)器人的粗略輪廓,披著獵奇的外衣,類GPT技術(shù)為行業(yè)帶來(lái)的真實(shí)價(jià)值遠(yuǎn)不止于此。
類GPT技術(shù)具有解決的機(jī)器人領(lǐng)域新剛需的潛力,具體有哪些想象空間?
劉宇翔說(shuō),其為機(jī)器人帶來(lái)最核心進(jìn)化是對(duì)話理解能力。具備了多模態(tài)思維鏈能力的GPT-4模型具有一定邏輯分析能力,已經(jīng)不是傳統(tǒng)意義上的詞匯概率逼近模型。
比如我們之前看到一些公司前臺(tái)或展區(qū)設(shè)有導(dǎo)覽機(jī)器人,很多是根據(jù)配置的問(wèn)題答案庫(kù)調(diào)取回答,作為前臺(tái)和導(dǎo)覽人員工作受限。接入類GPT技術(shù)的前臺(tái)機(jī)器人不僅能做一些演示及效果,還能真正與訪客進(jìn)行深入對(duì)話,通過(guò)深入交流解決來(lái)訪者的實(shí)際問(wèn)題。
在機(jī)器人研發(fā)和制造環(huán)節(jié),類GPT技術(shù)也促進(jìn)機(jī)器人研發(fā)制造環(huán)節(jié)效率提高。比如很多機(jī)器人研發(fā)人員已采用類GPT技術(shù)檢索代碼問(wèn)題;涉及到機(jī)器人制造中的零部件選型,機(jī)器人企業(yè)可以讓類GPT產(chǎn)品通過(guò)閱讀供應(yīng)鏈文檔去輔助推薦選型等。
此外還有一些通用場(chǎng)景,比如在營(yíng)銷及運(yùn)營(yíng)環(huán)節(jié),機(jī)器人企業(yè)可基于類GPT技術(shù)對(duì)宣傳資料撰寫(xiě)、客戶溝通郵件的撰寫(xiě)。
當(dāng)我們將視野從大語(yǔ)言模型投向更廣泛的GPT-4等多模態(tài)大模型,會(huì)發(fā)現(xiàn)更令人興奮的潛在機(jī)會(huì)。
近期,微軟基于GPT-4搭建實(shí)體機(jī)器人Demo的嘗試以論文方式公開(kāi)。根據(jù)這一論文,GPT能夠控制機(jī)器人完成語(yǔ)言理解之外的事,與外界物理世界發(fā)生聯(lián)動(dòng),帶來(lái)機(jī)器人端到端的體驗(yàn)。
劉宇翔稱,通用大模型帶來(lái)的是更通用的機(jī)器人,機(jī)器人進(jìn)入家庭的夢(mèng)想將更進(jìn)一步。比如你回家了跟機(jī)器人說(shuō)“你幫我找點(diǎn)喝的”,機(jī)器人在接收你的消息后,會(huì)結(jié)合你的習(xí)慣或與你對(duì)話判斷你可能想喝甜的還是酸的,哪個(gè)不適合你,親自將水取出遞給你。
機(jī)器人接入大模型分三步走不是人人都有“入場(chǎng)券”
今年1月,工信部等十七部門(mén)發(fā)布《“機(jī)器人+”應(yīng)用行動(dòng)實(shí)施方案》,該政策提出到 2025 年,服務(wù)機(jī)器人行業(yè)應(yīng)用深度和廣度要顯著提升。適逢當(dāng)下國(guó)內(nèi)外的大模型紛紛推出,包括商貿(mào)物流、醫(yī)療健康、養(yǎng)老、商業(yè)社區(qū)服務(wù)等多個(gè)機(jī)器人行業(yè)賽道都成為類大模型技術(shù)落地的掘金地。
飛快的速度,是中國(guó)智能產(chǎn)業(yè)江湖生存的必備技能。我們看到國(guó)內(nèi)已有一些服務(wù)機(jī)器人企業(yè)接入類GPT技術(shù),但多位業(yè)內(nèi)人士告訴我們,這些嘗試大多比較初級(jí)。
劉宇翔認(rèn)為,機(jī)器人接入GPT的可以粗略分為L(zhǎng)0~L2三個(gè)級(jí)別:
L0是僅接入大模型官方API,幾乎沒(méi)有做二次開(kāi)發(fā),難度系數(shù)較低;
L1是在接入大模型的基礎(chǔ)上,結(jié)合場(chǎng)景理解滿足需求做產(chǎn)品開(kāi)發(fā),這才達(dá)到及格線;
L2則是接入大模型的機(jī)器人企業(yè)基于本地知識(shí)做二次開(kāi)發(fā),甚至得到自己的(半)自研大模型(平民化大模型),解決場(chǎng)景問(wèn)題,產(chǎn)品能做出來(lái)、賣出去,這才達(dá)到優(yōu)秀線。
劉宇翔談道,接入類GPT技術(shù)接口可能容易,但要實(shí)現(xiàn)從L0到L2的跨越并不容易。
他告訴智東西,機(jī)器人企業(yè)在接入類GPT技術(shù)之前首先要考慮的是“第一性原理”。比如從獵戶星空來(lái)說(shuō),公司自去年底就開(kāi)始研判并推進(jìn)這一技術(shù)與機(jī)器人的結(jié)合,計(jì)劃于近期推出產(chǎn)品。其出手的第一性原理是:
1、基于類GPT技術(shù)做以前的機(jī)器人技術(shù)做不到的事。
也就是說(shuō),既然都采用的類GPT技術(shù),機(jī)器人企業(yè)必須把場(chǎng)景往深處做。比如讓原本只能回答有限問(wèn)題的導(dǎo)覽機(jī)器人,進(jìn)化為與用戶進(jìn)行交互式學(xué)習(xí)的導(dǎo)覽機(jī)器人,比如能就西安博物館里的展品深入探討,大模型在語(yǔ)音識(shí)別、軟件服務(wù)等各個(gè)環(huán)節(jié)輔助下,實(shí)現(xiàn)與游客更加多維度、更流暢的交流,體現(xiàn)與先前產(chǎn)品的代際差。
2、做僅靠類GPT技術(shù)做不了的事。
舉個(gè)例子,我們看到博物館的導(dǎo)覽機(jī)器人已經(jīng)上崗多地,他們會(huì)帶人們巡游展館、聲情并茂地解說(shuō)。當(dāng)接入GPT技術(shù)之后,參觀者可以直接去和機(jī)器人對(duì)話,讓機(jī)器人根據(jù)提問(wèn)展開(kāi)講講。但GPT模型獨(dú)自是做不到這些的,內(nèi)容比較泛,而是要結(jié)合實(shí)體機(jī)身、傳感器、本地地圖和導(dǎo)航系統(tǒng)、本地知識(shí)庫(kù)等能力。
劉宇翔說(shuō),用好類GPT技術(shù)只是一方面,更多的難度還是在于機(jī)器人本身。
“如果你已經(jīng)有一個(gè)機(jī)器人了,把它變成GPT時(shí)代的機(jī)器人是合理的,但若‘真正機(jī)器人’都做不出來(lái),難度還是在機(jī)器人這一端?!鳖怗PT技術(shù)需要結(jié)合整個(gè)智能機(jī)器人鏈條才能發(fā)揮“端到端”的作用。
以NLP與ASR(智能語(yǔ)言識(shí)別)技術(shù)結(jié)合為例,大模型能幫導(dǎo)覽機(jī)器人更聰明地理解對(duì)話,但如果它連聽(tīng)都聽(tīng)不清人的話,語(yǔ)音識(shí)別是錯(cuò)的,就根本不用談理解對(duì)話。因?yàn)樾略~更新速度不夠、復(fù)雜噪音環(huán)境識(shí)別不足、遠(yuǎn)場(chǎng)環(huán)境服務(wù)迭代不及時(shí)等問(wèn)題都會(huì)影響用戶輸入,這就好像一顆好腦子長(zhǎng)在了耳背的人身上,大模型的作用也會(huì)發(fā)揮不出來(lái)。
3、做真正能跟客戶產(chǎn)生價(jià)值的事。
這一點(diǎn)比較好理解,像阿梅卡一樣的機(jī)器人或許是引人關(guān)注的,但這種獵奇的應(yīng)用可能暫且實(shí)用性不大,也很難批量復(fù)制和商業(yè)化落地。因此結(jié)合場(chǎng)景理解,做能量產(chǎn)、賣得好的GPT時(shí)代機(jī)器人尤為關(guān)鍵。
可以看到,雖然接入類GPT應(yīng)用的接口只是一瞬間的事,但打好機(jī)器人“身體底子”、進(jìn)一步疊技能卻仍是一件難度較高的事,不是人人都具備“入場(chǎng)券”。
所有行業(yè)值得重做一遍機(jī)器人迎來(lái)“iPhone時(shí)刻”?
所有的行業(yè)都值得基于大模型重做一遍,機(jī)器人行業(yè)也正面臨一個(gè)交互式革命。
微軟聯(lián)合創(chuàng)始人比爾·蓋茨3月時(shí)在博客中談道,GPT模型是他自1980年他第一次看到現(xiàn)代圖形用戶界面(GUI)以來(lái)最具革命性的進(jìn)步。聚焦到服務(wù)機(jī)器人領(lǐng)域,獵戶星空董事長(zhǎng)傅盛也在3月15日第一時(shí)間分享了GPT-4體驗(yàn)視頻,他說(shuō):“GPT-4發(fā)布世界要變了!每個(gè)人都要關(guān)心?!?/p>
這個(gè)“變”指的是什么?劉宇翔談到他的理解,大語(yǔ)言模型將帶來(lái)兩大方面的變化:
一是交互的革命。2007年喬布斯發(fā)布iPhone時(shí)就是一個(gè)交互革命,觸摸鍵盤(pán)由此替代了物理鍵盤(pán),軟件定義了不同鍵位的形態(tài)和用法;現(xiàn)在隨著GPT-4的到來(lái),觸摸鍵盤(pán)將可能進(jìn)一步被語(yǔ)音交互替代;二是社會(huì)生產(chǎn)力變革,生產(chǎn)效率會(huì)大大提升。其中前者對(duì)機(jī)器人領(lǐng)域影響更大,而后者對(duì)內(nèi)容產(chǎn)業(yè)影響力較大。
這也解釋了為什么英偉達(dá)創(chuàng)始人兼CEO黃仁勛在3月GTC大會(huì)上稱:“我們正處于AI的‘iPhone時(shí)刻’?!眎Phone時(shí)代實(shí)際上就是移動(dòng)互聯(lián)網(wǎng)的新交互時(shí)代到來(lái),對(duì)于AI來(lái)說(shuō),伴隨著類GPT技術(shù)橫空出世,它也將更深入地滲透到人類關(guān)于機(jī)器人的愿景里。
劉宇翔認(rèn)為,從智能終端來(lái)說(shuō),包括智能手機(jī)、電腦、智能音箱、機(jī)器人、汽車等產(chǎn)品都可能被重做一遍,就像2012年大家基于安卓把所有PC軟件重做一遍一樣。也就是說(shuō),在GPT的新浪潮下,行業(yè)賽道之間也在相互競(jìng)賽,爭(zhēng)取更快進(jìn)入“GPT時(shí)刻”,成為最終極的GPT終端。
成立于2016年的獵戶星空在創(chuàng)業(yè)之初提出了機(jī)器人公式:“AI+軟件+硬件+服務(wù)=機(jī)器人”,據(jù)稱目前已經(jīng)形成了包含口、耳、眼、腿、手、腦在內(nèi)的全鏈條AI技術(shù)。同時(shí),公司已自研了操作系統(tǒng)Robot OS、語(yǔ)音OS、導(dǎo)航技術(shù),并且已經(jīng)擁有全棧硬件設(shè)計(jì)制造能力,以及服務(wù)機(jī)器人落地現(xiàn)場(chǎng)及云端的服務(wù)能力。
▲獵戶星空機(jī)器人公式
根據(jù)官方數(shù)據(jù),截至2022年底,獵戶星空的服務(wù)機(jī)器人出貨量已經(jīng)達(dá)到45000臺(tái),日均語(yǔ)音交互頻次超1700萬(wàn)次,總服務(wù)人次近5億人。據(jù)悉,獵戶星空基于大語(yǔ)言模型的相關(guān)產(chǎn)品也將在近期推出,面向市場(chǎng)交出答卷。
結(jié)語(yǔ):GPT卷進(jìn)機(jī)器人掀起交互式革命
智能服務(wù)機(jī)器人在我國(guó)發(fā)展多年,經(jīng)歷了跌跌撞撞的發(fā)展歷程,NLP技術(shù)的短板一直是一個(gè)嚴(yán)峻限制。類GPT技術(shù)的出現(xiàn)使得智能機(jī)器人企業(yè)以較低成本調(diào)取頂尖語(yǔ)言理解能力成為可能,有望提升智能服務(wù)機(jī)器人在各個(gè)行業(yè)的滲透率。
新的交互式革命正在掀起,單一功能機(jī)器人向通用機(jī)器人發(fā)展的過(guò)渡期也在縮短。而當(dāng)有了多模態(tài)大模型的支持,與大模型相配合的機(jī)器人整機(jī)以及設(shè)計(jì)算法、軟件、硬件、服務(wù)等各個(gè)環(huán)節(jié)的研發(fā)和創(chuàng)新能力,也將成為影響機(jī)器人企業(yè)角逐勝負(fù)的關(guān)鍵要素。