<
강화학습 기초정리
>
上一篇

Numpy 많이쓰는 함수 정리
下一篇

WSL 에서 Jekyll 설치 재도

강화학습을 공부하기 앞서 간단한 개념들에 대한 정리를 해보려 한다
하면서 느낀거지만 어렵다 ㅠㅠ

MDP ( Marcov Decision Process )

구성요소

  1. State ( $S$ )
    • 관찰 가능한 상태의 집합 (현재 상태)
    • $S_t = s$ : 시간 t에서의 상태 s
  2. Action ( $A$ )
    • $S_t$에서 할 수 있는 모든 행동의 집합
    • $A_t = a$ : 시간 t에서의 행동 a
  3. Reward ( $R$ )
    • $R^a_s = E[\ R_{t+1}\ |\ S_t=s, A_t=a\ ]$
    • 상태 $s$에서의 행동 $a$를 했을때 받을 보상에 대한 기대값
    • 보상의 시점은 행동후 환경이 알려주는 것이기에 $R_{t+1}$을 사용
  4. Probarblity ( $P$ )
    • $P^a_{ss’} = P[\ S_{t+1} = s’\ |\ S_t=s, A_t=a\ ]$
    • 상태 $s$에서 행동 $a$를 취했을때 상태 $s’$에 도달할 확률
    • 일반적으로 상태 $s$에서 어떤행동 $a$를 취한다면 에이전트의 상태는 $s’$에 도달하지만 외부 요인에 있어서 실패 할수도 있기에 도달할 확률을 표현
  5. Discount Factor ( $\gamma$ )
    • 보상이 현재가아닌 미래에 이루어진다면 시간만큼의 보상의 가치가 감소함
    • $\gamma \in [0,1]$ : 시간에 따른 감소하는 가치의 비율(0에서 1사이)
    • $\gamma^{k-1}R_{t+k}$ : $k$시간 후에 받는 감가된 보상

최적화

Policy ($\pi$)

Value Function ($\mathbf{v}$)

Q-Function ( $\mathrm q$ )

벨만 기대 방정식

벨만 최적 방정식

보완필요

Top
Foot