必威电竞|足球世界杯竞猜平台

深度強化學習
來源:互聯網

深度強化學習將深度學習的感知能力和強化學習的決策能力相結合,可以直接根據輸入的圖像進行控制,是一種更接近人類思維方式的人工智能方法。

簡介概述

深度學習具有較強的感知能力,但是缺乏一定的決策能力;而強化學習具有決策能力,對感知問題束手無策。因此,將兩者結合起來,優勢互補,為復雜系統的感知決策問題提供了解決思路。

原理框架

DRL是一種端對端(end-to-end)的感知與控制系統,具有很強的通用性.其學習過程可以 描述為:

(1)在每個時刻agent與環境交互得到一個高維度的觀察,并利用DL方法來感知觀察,以得到具體的狀態特征表示;

(2)基于預期回報來評價各動作的價值函數,并通過某種策略將當前狀態映射為相應的動作;

(3)環境對此動作做出反應,并得到下一個觀察.通過不斷循環以上過程,最終可以得到實現目標的最優策略。

DRL原理框架如圖所示。

DQN算法

DQN算法融合了神經網絡和Q learning的方法,名字叫做 Deep Q Network。

DQN 有一個記憶庫用于學習之前的經歷。在之前的簡介影片中提到過, Q learning 是一種 off-policy 離線學習法,它能學習當前經歷著的,也能學習過去經歷過的,甚至是學習別人的經歷 所以每次 DQN 更新的時候,我們都可以隨機抽取一些之前的經歷進行學習. 隨機抽取這種做法打亂了經歷之間的相關性,也使得神經網絡更新更有效率。Fixed Q-targets 也是一種打亂相關性的機理,如果使用 fixed Q-targets,我們就會在 DQN 中使用到兩個結構相同但參數不同的神經網絡,預測 Q 估計 的神經網絡具備最新的參數,而預測 Q 現實 的神經網絡使用的參數則是很久以前的。有了這兩種提升手段, DQN 才能在一些游戲中超越人類。

卷積神經網絡

由于卷積神經網絡對圖像處理擁有天然的優勢,將卷積神經網絡與強化學習結合處理圖像數據的感知決策任務成了很多學者的研究方向。

深度Q網絡是深度強化學習領域的開創性工作。它采用時間上相鄰的4幀游戲畫面作為原始圖像輸入,經過深度卷積神經網絡和全連接神經網絡,輸出狀態動作Q函數,實現了端到端的學習控制。

深度Q網絡使用帶有參數θ的Q函數Q(s, a; θ)去逼近值函數。迭代次數為i 時,損失函數為

其中

θi代表學習過程中的網絡參數。經過一段時間的學習后,新的θi更新θ?。具體的學習過程根據:

遞歸神經網絡

深度強化學習面臨的問題往往具有很強的時間依賴性,而遞歸神經網絡適合處理和時間序列相關的問題。強化學習與遞歸神經網絡的結合也是深度強化學習的主要形式。

對于時間序列信息,深度Q網絡的處理方法是加入經驗回放機制。但是經驗回放的記憶能力有限,每個決策點需要獲取整個輸入畫面進行感知記憶。將長短時記憶網絡與深度Q網絡結合,提出深度遞歸Q網絡(deep recurrent Q network,DRQN),在部分可觀測馬爾科夫決策過程(partiallyobservable Markov decision process, POMDP)中表現出了更好的魯棒性,同時在缺失若干幀畫面的情況下也能獲得很好的實驗結果。

受此啟發的深度注意力遞歸Q網絡(deep attentionrecurrent Q network, DARQN)。它能夠選擇性地重點關注相關信息區域,減少深度神經網絡的參數數量和計算開銷。

參考資料 >

生活家百科家居網