早上,王爺爺吃完飯,機器人“小明”趕緊提醒王爺爺要在半小時之內(nèi)吃藥,吃完藥王爺爺坐在電視機前,“小明”告訴王爺爺老花鏡在茶幾的第一個抽屜中。午休過后,王爺爺要出門散步,“小明”告訴王爺爺外面只有 10 度,需要穿外套,并拿上傘。
以上的情景絕對不只是暢想,隨著老齡化和少子化程度的加深,機器人會越來越多走進老年人家庭,成為智能養(yǎng)老小助手。但是每個老人的脾氣、性格、需求各不相同,因此要求機器人能夠不斷學(xué)習(xí),理解老人的隱性需求,真正能夠陪伴老人。如何滿足這些個性化的需求?從人工智能的角度分析,就要讓機器人不斷學(xué)習(xí),認識老人的家庭環(huán)境,理解老人的需求,但是目前,不管是從機器視覺方面,還是自然語言理解方面都面臨巨大的挑戰(zhàn)。
在英特爾中國研究院 2018 年媒體開放日上,英特爾的研究人員從計算機視覺、自然語言識別、強化學(xué)習(xí)等領(lǐng)域分享了英特爾的研究成果,讓我們看到未來機器人的發(fā)展方向。
目前的技術(shù)瓶頸
機器人進入家庭,首先需要認識主人,只有認識了主人才能進行全方位的服務(wù),比如主人習(xí)慣什么時候起床,如果起床晚了是否需要進行提醒?喜歡吃什么食物,當(dāng)家里沒有了是否需要提醒子女購買?對于主人和重要物品,目前是基于深度學(xué)習(xí),進行大量訓(xùn)練進行識別,但是即使進行了大量訓(xùn)練,可能有時候還會出錯,比如針對老花鏡進行了一萬張圖片的訓(xùn)練,人工智能還是有可能認錯主人的老花鏡。
另外,由于每個家庭的需求不同,機器人無法進行預(yù)編譯處理,需要個性化定制。比如有些人喜歡靜,家里不能隨便走動,有些人喜歡動,需要隨時滿足主人的呼喚。主人的起床時間不同,無法預(yù)先編程,需要根據(jù)個人的特點進行觀察。因此,做好機器人不僅需要人臉識別、底層語義分析,還需要高層語義分析,從而讓機器人的智能程度滿足個性化需求。
進入家庭后需要自主學(xué)習(xí)
現(xiàn)在的人臉識別一般是對正臉進行識別,對于側(cè)臉識別可能就沒有那么靈了,如果在家中機器人只能識別正臉將會發(fā)生很多尷尬,用戶的交互體驗也會大打折扣,因此有人想出了通過人體特征進行辨識,比如衣服,但是當(dāng)主人換了衣服機器人又無法辨識。英特爾所采取的方式是將人臉特征和人體特征相結(jié)合,人體特征不需要預(yù)先把人各種各樣的衣服都要看一遍或者姿態(tài)看一遍才能認,通過人體特征認人,而是通過人臉開始不斷地自我學(xué)習(xí),機器人剛開始通過人臉識別主人,經(jīng)過一周的交互和觀察,可以從各個角度把主人準確地識別出來。
因為主人可能會換衣服,機器人還會發(fā)生錯誤,這時候機器人需要和主人主動交互,把可能的錯誤進行確認,這是自我學(xué)習(xí)的認人功能。同時,英特爾還研發(fā)了一些自適應(yīng)物體識別,比如:藥瓶,通過對一幀的圖像標注之后,把物體在線建一個模型,后續(xù)可以把這個物體的邊界準確的分割出來,這等于認識物體是可以通過向用戶學(xué)習(xí)的過程實現(xiàn)。
機器人的主動學(xué)習(xí)和強化學(xué)習(xí)
讓機器人理解:“昨天我在客廳里吃藥,藥瓶去哪里了?”
在家庭生活中,王爺爺可能問機器人:昨天我在客廳里吃藥,藥瓶去哪里了?這個問題貌似非常簡單,可能三歲小朋友也能理解,但是對機器人來說里面有很難跨越的技術(shù)鴻溝。其中王爺爺是對人的識別,吃藥是動作識別,藥瓶是物體識別,這些需要底層識別模塊來實現(xiàn)。再看“昨天”和“客廳”這兩個關(guān)鍵詞,客廳是對空間的理解,昨天是對時間信的理解。如何讓機器人理解這句話?首先最底層要進行人物識別、物體識別、情緒檢測、動作檢測,接下來,有一個三維語義環(huán)境,就是把底層檢測到的信息和物理環(huán)境對應(yīng)起來,比如人在什么位置,物體在什么位置,這件事發(fā)生在什么位置,這些信息只有在三維語義環(huán)境的模塊中對應(yīng)上,機器人才能夠理解事件發(fā)生的意義。
英特爾利用三維語義環(huán)境和個性化知識庫這兩個模塊來解決這些問題,從底層的感知模塊走到應(yīng)用,但是底層的感知模塊不可能做到百分之百精準。這個錯誤會往上層傳播,到了空間層,我們希望把底層的這些信息打上空間智能的標簽,位置跟空間相對的情況,包括跟空間的三維建模,都是在這一層次進行的。理想的情況機器人到了家里,馬上建立空間模型,并且能夠理解空間的含義。到了知識庫層面,能夠很好的記憶這個知識,基于這個知識進行推理、應(yīng)用,但是目前的技術(shù)還存在問題,不可能做到百分之百精準。
三維語義環(huán)境所做的是從感知層得到信息,比如藥瓶的位置,用坐標的方式標記出來,接下來空間智能要理解這個空間是客廳還是餐廳,到 這一層次才能跟人交流,進而判斷出客廳,然后順利在客廳找到藥瓶。可以看出,空間智能主要的工作是快速對空間進行建模,并理解這個空間。關(guān)于個性化的知識圖譜,主要功能是記憶和推理,所面臨的最大挑戰(zhàn)來自于我們想記錄的知識。人類知識分兩塊:一塊是穩(wěn)定的知識,就像谷歌和 Facebook 力圖想存的知識,谷歌叫 Google Graph,這些知識可以事先做好,并且經(jīng)過專家審核;另外一種是個性化知識,是動態(tài)變化的,機器人來到家庭之前無法提前獲取,為了獲取這樣的知識,我們的挑戰(zhàn)必須要有一個合適的知識表示,合適的知識推理,而且這個知識圖譜要能容忍底層產(chǎn)生的錯誤。
強化學(xué)習(xí)讓機器人能夠完成主動服務(wù)
當(dāng)機器人能夠理解語言的時候,說明機器人已經(jīng)具備了和人溝通的能力,但是想要實現(xiàn)真正的照顧別人,機器人需要更深的理解能力,不光是被動地去服務(wù),還能主動的猜測主人的意圖。從王爺爺?shù)睦觼砜?,?dāng)王爺爺需要藥瓶時機器人可以拿給他是一種情況,如果機器人看到王爺爺在找東西,能夠猜測他想找藥瓶還是找水,就能提供主動服務(wù)。這里會用到強化學(xué)習(xí),它教給機器人三個功能:一是如何學(xué)習(xí)新的能力;二是如何做的一次比一次好;三是如何主動地提供正確服務(wù)。
關(guān)于一次比一次做的好這一點,需要通過小樣本的強化學(xué)習(xí)來解決。我們希望機器人一次比一次做得好,需要猜測,而猜測本身也是需要優(yōu)化的。猜測的目的主要有兩方面,一是有時候不能進行標注,比如王爺爺走向桌子可能是找水,走向柜子可能是找藥,但是這個事情無法去標注,機器人需要去主動采集樣本,通過回報自己進行標注。強化學(xué)習(xí)需要不斷探索和優(yōu)化,從而讓機器人更加智能。
當(dāng)然,機器人的學(xué)習(xí)還面臨巨大的挑戰(zhàn),比如:人的關(guān)節(jié)都是全向關(guān)節(jié),而機器人不能做到這一點,每一個關(guān)節(jié)只能向一個方向旋轉(zhuǎn)。如果我們希望把人的一個動作映射到機器人上,需要做一個推廣,使它能夠適應(yīng)機器人獨特的運動特性。另外,我們應(yīng)用時還要考慮到采樣成本的預(yù)算,當(dāng)學(xué)習(xí)一個新的性能時,機器人必須一次學(xué)會。我們需要考慮采樣成本和比較更高級的需求,來達到對于實際機器人學(xué)習(xí)來說可用的程度。
關(guān)于人工智能會替代人類的說法已經(jīng)深入人心,曾經(jīng)引來一波恐慌,聽完英特爾研究院的工程師講解,筆者覺得那個時代還很遙遠,機器人需要經(jīng)過漫長的自我學(xué)習(xí)才能達到熟練理解空間和語義的階段,要實現(xiàn)真正的智能似乎還需要計算能力和存儲能力的進一步的提高,硬件技術(shù)和軟件算法還需要很大的進步空間。
與非網(wǎng)原創(chuàng)內(nèi)容,未經(jīng)允許,不得轉(zhuǎn)載!