Dynamic Programming
·
Reinforcement Learning
Bellmean Optimality Equation\[v_* (s) = \max_{a} \sum_{s',r} p(s', r | s, a) \left[ r + \gamma v_* (s') \right]\]\[ q_* (s,a) = \sum_{s',r} p(s', r \mid s, a) \left[ r + \gamma \max_{a'} q_* (s',a') \right] \]정책 평가 (Policy Evaluation)정책 평가의 목적은 주어진 정책 \( \pi \)에 대해 각 상태 ( s )에서 기대되는 총 보상, 즉 상태-가치 함수 ( v_\pi(s) )를 계산하는 것이다. 이는 다음과 같은 벨만 기대 방정식으로 표현된다:\[v_\pi(s) = \sum_{a} \pi(a|s) \sum_{s',r} p(s..