加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 所需的樣本數(shù)量太大
    • 探索階段代價(jià)太大
    • 超參數(shù)的影響非常大
    • 穩(wěn)定性極差
    • 總結(jié)與未來
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

【深度強(qiáng)化學(xué)習(xí)】目前落地的挑戰(zhàn)與前沿對策

12/06 14:11
1197
閱讀需 8 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

到目前為止,深度強(qiáng)化學(xué)習(xí)最成功、最有名的應(yīng)用仍然是 Atari 游戲、圍棋游戲等。即使深度強(qiáng)化學(xué)習(xí)有很多現(xiàn)實(shí)中的應(yīng)用,但其中成功的應(yīng)用并不多。為什么呢?本文總結(jié)目前的挑戰(zhàn)。

所需的樣本數(shù)量太大

深度強(qiáng)化學(xué)習(xí)一個(gè)嚴(yán)重的問題在于需要巨大的樣本量。

用 Rainbow DQN 玩 Atari 游戲,達(dá)到人類玩家水平,需要至少1800萬幀,且超過1億幀還未收斂。(已經(jīng)調(diào)優(yōu)了多種超參數(shù))

AlphaGo Zero 用了2900萬局自我博弈,每一局約有100 個(gè)狀態(tài)和動(dòng)作。

TD3算法在MuJoCo物理仿真環(huán)境中訓(xùn)練Half-Cheetah、 Ant、 Hopper等模擬機(jī)器人,雖然只有幾個(gè)關(guān)節(jié)需要控制,但是在樣本數(shù)量100萬時(shí)尚未收斂。甚至連Pendulum,Reacher這種只有一兩個(gè)關(guān)節(jié)的最簡單的控制問題,TD3也需要超過10萬個(gè)樣本。

現(xiàn)實(shí)的問題遠(yuǎn)遠(yuǎn)比Atari和MuJoCo復(fù)雜,其狀態(tài)空間和動(dòng)作空間都遠(yuǎn)大于Atari和MuJoCo,對于簡單問題RL尚需要百萬、千萬級的樣本,那對于現(xiàn)實(shí)復(fù)雜問題,可想樣本量的恐怖。而且,在游戲中獲取億萬樣本并不困難,但是在現(xiàn)實(shí)中每獲取一個(gè)樣本都比較困難。舉個(gè)例子,用機(jī)械手臂抓取一個(gè)物體至少需要幾秒鐘時(shí)間,那么一天只能收集一萬個(gè)樣本;同時(shí)用十個(gè)機(jī)械手臂,連續(xù)運(yùn)轉(zhuǎn)一百天,才能收集到一千萬個(gè)樣本,未必夠訓(xùn)練一個(gè)深度強(qiáng)化學(xué)習(xí)模型。強(qiáng)化學(xué)習(xí)所需的樣本量太大,這會(huì)限制強(qiáng)化學(xué)習(xí)在現(xiàn)實(shí)中的應(yīng)用。

探索階段代價(jià)太大

強(qiáng)化學(xué)習(xí)要求智能體與環(huán)境交互,用收集到的經(jīng)驗(yàn)去更新策略。在交互的過程中,智能體會(huì)改變環(huán)境。在仿真、游戲的環(huán)境中,智能體對環(huán)境造成任何影響都無所謂。但是在現(xiàn)實(shí)世界中,智能體對環(huán)境的影響可能會(huì)造成巨大的代價(jià)。

在強(qiáng)化學(xué)習(xí)初始的探索階段,策略幾乎是隨機(jī)的。

如果應(yīng)用到推薦系統(tǒng)中,上線一個(gè)隨機(jī)的推薦策略,那么用戶的體驗(yàn)會(huì)極差,很低的點(diǎn)擊率也會(huì)給網(wǎng)站造成收入的損失。

如果應(yīng)用到自動(dòng)駕駛中,隨機(jī)的控制策略會(huì)導(dǎo)致車輛撞毀。

如果應(yīng)用到醫(yī)療中,隨機(jī)的治療方案會(huì)致死致殘。

在物理世界的應(yīng)用中,不能直接讓初始的隨機(jī)策略與環(huán)境交互,而應(yīng)該先對策略做預(yù)訓(xùn)練,再在真實(shí)環(huán)境中部署。 其中涉及離線強(qiáng)化學(xué)習(xí)(Offline RL),是一個(gè)很有價(jià)值的研究方向。

  1. 一種方法是事先準(zhǔn)備一個(gè)數(shù)據(jù)集,用行為克隆等監(jiān)督學(xué)習(xí)方法做預(yù)訓(xùn)練。
  2. 另一種方法是搭建模擬器,在模擬器中預(yù)訓(xùn)練策略。

超參數(shù)的影響非常大

深度強(qiáng)化學(xué)習(xí)對超參數(shù)的設(shè)置極其敏感,需要很小心調(diào)參才能找到好的超參數(shù)。

超參數(shù)分兩種:神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)超參數(shù)算法超參數(shù)。這兩類超參數(shù)的設(shè)置都嚴(yán)重影響實(shí)驗(yàn)效果。換句話說,完全相同的方法,由不同的人實(shí)現(xiàn),效果會(huì)有天壤之別。

  1. 結(jié)構(gòu)超參數(shù): 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)超參數(shù)包括層的數(shù)量、寬度、激活函數(shù),這些都對結(jié)果有很大影響。拿激活函數(shù)來說,在監(jiān)督學(xué)習(xí)中,在隱層中用不同的激活函數(shù)(比如 ReLU、Leaky ReLU)對結(jié)果影響很小,因此總是用 ReLU 就可以。但是在深度強(qiáng)化學(xué)習(xí)中,隱層激活函數(shù)對結(jié)果的影響很大;有時(shí) ReLU 遠(yuǎn)好于 Leaky ReLU,而有時(shí) Leaky ReLU 遠(yuǎn)好于 ReLU。由于這種不一致性,我們在實(shí)踐中不得不嘗試不同的激活函數(shù)。
  2. 算法超參數(shù): 強(qiáng)化學(xué)習(xí)中的算法超參數(shù)很多,包括學(xué)習(xí)率、批大小 (Batch Size)、經(jīng)驗(yàn)回放的參數(shù)探索用的噪聲。(Rainbow 的論文調(diào)了超過 10 種算法超參數(shù)。)

實(shí)驗(yàn)效果嚴(yán)重依賴于實(shí)現(xiàn)的好壞。哪怕是一些細(xì)微的超參數(shù)區(qū)別,也會(huì)影響最終的效果。 即使都用同一個(gè)算法,比如 TRPO 和 DDPG 方法,不同人的編程實(shí)現(xiàn),實(shí)驗(yàn)效果差距巨大。

實(shí)驗(yàn)對比的可靠性問題。如果一篇學(xué)術(shù)論文提出一種新的方法,往往要在 Atari、MuJoCo 等標(biāo)準(zhǔn)的實(shí)驗(yàn)環(huán)境中做實(shí)驗(yàn),并與 DQN、DDPG、TD3、A2C、TRPO 等有名的基線做實(shí)驗(yàn)對照。但是這些基線算法的表現(xiàn)嚴(yán)重依賴于編程實(shí)現(xiàn)的好壞,如果你把自己的算法實(shí)現(xiàn)得很好,而從開源的基線代碼中選一個(gè)不那么好的做實(shí)驗(yàn)對比,那你的算法可以輕松打敗基線。

穩(wěn)定性極差

強(qiáng)化學(xué)習(xí)訓(xùn)練的過程中充滿了隨機(jī)性。除了環(huán)境的隨機(jī)性之外,隨機(jī)性還來自于神經(jīng)網(wǎng)絡(luò)隨機(jī)初始化、決策的隨機(jī)性、經(jīng)驗(yàn)回放的隨機(jī)性。想必大家都有這樣的經(jīng)歷:用完全相同的程序、完全相同的超參數(shù),僅僅更改隨機(jī)種子(Random Seed),就會(huì)導(dǎo)致訓(xùn)練的效果有天壤之別。如果重復(fù)訓(xùn)練十次,往往會(huì)有幾次完全不收斂。哪怕是非常簡單的問題,也會(huì)出現(xiàn)這種不收斂的情形。

所以實(shí)驗(yàn)時(shí)即使代碼和超參數(shù)都是對的,強(qiáng)化學(xué)習(xí)也有可能會(huì)出現(xiàn)不收斂的情況。監(jiān)督學(xué)習(xí)則幾乎沒有這種擔(dān)憂。

在這里插入圖片描述

總結(jié)與未來

RL需要過多的數(shù)據(jù)量,且現(xiàn)實(shí)應(yīng)用中收集數(shù)據(jù)成本和代價(jià)太大。即使收集到合適數(shù)據(jù),訓(xùn)練網(wǎng)絡(luò)時(shí),超參數(shù)和隨機(jī)種子等因素對模型的訓(xùn)練影響非常大,不穩(wěn)定。
近年來,研究人員提出了多種方法來應(yīng)對這些問題,提高RL的實(shí)用性和效率。以下是一些前沿的改進(jìn)方法:

  1. 使用模擬環(huán)境和數(shù)據(jù)增強(qiáng),減少對真實(shí)世界數(shù)據(jù)的需求,但是這樣訓(xùn)練出來的模型如溫室的花朵。
  2. 事先準(zhǔn)備一個(gè)數(shù)據(jù)集,用行為克隆等監(jiān)督學(xué)習(xí)方法做預(yù)訓(xùn)練,再進(jìn)入現(xiàn)實(shí)做環(huán)境交互,進(jìn)一步訓(xùn)練。
  3. 遷移學(xué)習(xí)與元學(xué)習(xí),減少新任務(wù)所需數(shù)據(jù)量。
  4. 多任務(wù)學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的結(jié)合,同時(shí)學(xué)習(xí)多個(gè)相關(guān)任務(wù),共享知識以提高學(xué)習(xí)效率和泛化能力。
  5. 模型基的RL,構(gòu)建環(huán)境模型以預(yù)測未來狀態(tài)和獎(jiǎng)勵(lì),減少對真實(shí)環(huán)境交互的依賴。
  6. 自適應(yīng)超參數(shù)調(diào)整。
  7. 集成學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合,結(jié)合多個(gè)模型或策略,以減少單一模型或策略的不穩(wěn)定性和偏差。
  8. 利用大模型,具身智能等技術(shù),讓模型更具泛化性。

本文內(nèi)容為看完王樹森和張志華老師的《深度強(qiáng)化學(xué)習(xí)》一書的學(xué)習(xí)筆記,十分推薦大家去看原書!

相關(guān)推薦

電子產(chǎn)業(yè)圖譜