加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • 含義
    • 連續(xù)控制問題
    • 離散控制問題
    • 行為克隆與強(qiáng)化學(xué)習(xí)對(duì)比
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

一文了解【行為克隆 (Behavior Cloning)】

05/16 10:50
3624
閱讀需 5 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

模仿學(xué)習(xí) (Imitation Learning) 與強(qiáng)化學(xué)習(xí)一樣,為了學(xué)習(xí)策略網(wǎng)絡(luò),從而控制智能體。但是!兩者原理不同,

模仿學(xué)習(xí)向人類專家學(xué)習(xí),目標(biāo)是讓策略網(wǎng)絡(luò)做出的決策與人類專家相同。

強(qiáng)化學(xué)習(xí)利用環(huán)境反饋的獎(jiǎng)勵(lì)改進(jìn)策略,目標(biāo)是讓累計(jì)回報(bào)最大化

本文介紹模仿學(xué)習(xí)中最簡(jiǎn)單和基礎(chǔ)的行為克隆(Behavior Cloning),并總結(jié)它與強(qiáng)化學(xué)習(xí)的區(qū)別與結(jié)合。

含義

行為克隆的目的是模仿人的動(dòng)作,學(xué)出一個(gè)隨機(jī)策略網(wǎng)絡(luò) π(a|s; θ) 或者確定策略網(wǎng)絡(luò) μ(s; θ)。雖然行為克隆的目的與強(qiáng)化學(xué)習(xí)中的策略學(xué)習(xí)類似,但是行為克隆的本質(zhì)是監(jiān)督學(xué)習(xí)(分類或者回歸),而不是強(qiáng)化學(xué)習(xí)。行為克隆通過模仿人類專家的動(dòng)作來學(xué)習(xí)策略,而強(qiáng)化學(xué)習(xí)則是從獎(jiǎng)勵(lì)中學(xué)習(xí)策略。

模仿學(xué)習(xí)需要一個(gè)事先準(zhǔn)備好的數(shù)據(jù)集,由(狀態(tài),動(dòng)作)這樣的二元組構(gòu)成,

在這里插入圖片描述

其中sj 是一個(gè)狀態(tài),而對(duì)應(yīng)的 aj 是人類專家基于狀態(tài) sj 做出的動(dòng)作??梢园?sj 和 aj分別視作監(jiān)督學(xué)習(xí)中的輸入和標(biāo)簽。

連續(xù)控制問題

動(dòng)作空間 A 是連續(xù)集合,行為克隆用回歸的方法訓(xùn)練確定策略網(wǎng)絡(luò)。

在這里插入圖片描述

定義損失函數(shù):
在這里插入圖片描述

損失函數(shù)越小,說明策略網(wǎng)絡(luò)的決策越接近人的動(dòng)作。用梯度更新 θ:

在這里插入圖片描述

 

離散控制問題

動(dòng)作空間 A 是離散集合,行為克隆把策略網(wǎng)絡(luò) π(a|s; θ) 看做一個(gè)多類別分類器,用監(jiān)督學(xué)習(xí)的方法訓(xùn)練這個(gè)分類器。

在這里插入圖片描述
在這里插入圖片描述

行為克隆與強(qiáng)化學(xué)習(xí)對(duì)比

前面反復(fù)講過,行為克隆不是強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)讓智能體與環(huán)境交互,用環(huán)境反饋的獎(jiǎng)勵(lì)指導(dǎo)策略網(wǎng)絡(luò)的改進(jìn),目的是最大化回報(bào)的期望。行為克隆的本質(zhì)是監(jiān)督學(xué)習(xí),利用事先準(zhǔn)備好的數(shù)據(jù)集,用人類的動(dòng)作指導(dǎo)策略網(wǎng)絡(luò)的改進(jìn),目的是讓策略網(wǎng)絡(luò)的決策更像人類的決策。

行為克隆訓(xùn)練出的策略網(wǎng)絡(luò)通常效果不佳。人類不會(huì)探索奇怪的狀態(tài)和動(dòng)作,因此數(shù)據(jù)集上的狀態(tài)和動(dòng)作缺乏多樣性。在數(shù)據(jù)集上做完行為克隆之后,智能體面對(duì)真實(shí)的環(huán)境,可能會(huì)見到陌生的狀態(tài),智能體的決策可能會(huì)很糟糕。行為克隆存在“錯(cuò)誤累加”的缺陷。假如當(dāng)前智能體的決策 at 不夠好。那么下一時(shí)刻的狀態(tài) st+1 可能會(huì)比較罕見,于是智能體的決策 at+1 會(huì)很差;這又導(dǎo)致狀態(tài) st+2 非常奇怪,使得決策 at+2 更糟糕。行為克隆訓(xùn)練出的策略常會(huì)進(jìn)入這種惡性循環(huán)。
強(qiáng)化學(xué)習(xí)效果通常優(yōu)于行為克隆。如果用強(qiáng)化學(xué)習(xí),那么智能體探索過各種各樣的狀態(tài),嘗試過各種各樣的動(dòng)作,知道面對(duì)各種狀態(tài)時(shí)應(yīng)該做什么決策。智能體通過探索,各種狀態(tài)都見過,比行為克隆有更多的“人生經(jīng)驗(yàn)”,因此表現(xiàn)會(huì)更好。

強(qiáng)化學(xué)習(xí)的一個(gè)缺點(diǎn)在于需要與環(huán)境交互,需要探索,而且會(huì)改變環(huán)境。 而在現(xiàn)實(shí)探索的代價(jià)有時(shí)是很大的,比如手術(shù)機(jī)器人和無人車。
行為克隆的優(yōu)勢(shì)在于離線訓(xùn)練,可以避免與真實(shí)環(huán)境的交互,不會(huì)對(duì)環(huán)境產(chǎn)生影響。假如用行為克隆訓(xùn)練手術(shù)機(jī)器人,只需要把人類醫(yī)生的觀測(cè)和動(dòng)作記錄下來,離線訓(xùn)練手術(shù)機(jī)器人,而不需要真的在病人身上做實(shí)驗(yàn)。盡管行為克隆效果不如強(qiáng)化學(xué)習(xí),但是行為克隆的成本低??梢?strong>先用行為克隆初始化策略網(wǎng)絡(luò),而不是隨機(jī)初始化,然后再做強(qiáng)化學(xué)習(xí),這樣可以減小對(duì)物理世界的有害影響。

本文內(nèi)容為看完王樹森和張志華老師的《深度強(qiáng)化學(xué)習(xí)》一書的學(xué)習(xí)筆記,十分推薦大家去看原書!

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
FTLF8519P3BNL 1 Finisar Corporation Transceiver, 840nm Min, 860nm Max, 2125Mbps(Tx), 2125Mbps(Rx), LC Connector, Panel Mount, ROHS COMPLIANT PACKAGE

ECAD模型

下載ECAD模型
$39.4 查看
HFBR-2524 1 Agilent Technologies Inc Receiver, 5Mbps, DIP, Through Hole Mount
$14.66 查看
CSTCV16M0X51Q-R0 1 Murata Manufacturing Co Ltd Ceramic Resonator, 16MHz Nom, CERAMIC PACKAGE-3
$0.62 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜