Dynamic Programming
·
Reinforcement Learning
Bellmean Optimality Equation\[v_* (s) = \max_{a} \sum_{s',r} p(s', r | s, a) \left[ r + \gamma v_* (s') \right]\]\[ q_* (s,a) = \sum_{s',r} p(s', r \mid s, a) \left[ r + \gamma \max_{a'} q_* (s',a') \right] \]정책 평가 (Policy Evaluation)정책 평가의 목적은 주어진 정책 \( \pi \)에 대해 각 상태 ( s )에서 기대되는 총 보상, 즉 상태-가치 함수 ( v_\pi(s) )를 계산하는 것이다. 이는 다음과 같은 벨만 기대 방정식으로 표현된다:\[v_\pi(s) = \sum_{a} \pi(a|s) \sum_{s',r} p(s..
Multi-Arm Bandits (2)
·
Reinforcement Learning
2024.10.10 - [Reinforcement Learning] - Multi-arm Bandits-1Multi-Arm Bandits (1) 파트에 이어서 내용을 정리해 보았다.비정상적인 문제 추적 (Tracking a Nonstationary Problem)지금까지 논의된 평균화 방법은 정적인 환경에서 적합하지만, 밴딧 문제의 환경이 시간에 따라 변화하는 경우에는 적절하지 않다. 강화학습 문제에서 비정상성(nonstationarity)이 자주 발생하며, 이런 경우 최근의 보상을 과거의 보상보다 더 중요하게 여기는 것이 타당하다.이를 달성하는 한 가지 인기 있는 방법은 상수 학습률을 사용하는 것이다. 예를 들어, 이전의 업데이트 규칙을 다음과 같이 수정할 수 있다:\[Q_{k+1} = Q_k + \a..
Multi-arm Bandits-1
·
Reinforcement Learning
n-Arm Bandit 문제n-Arm Bandit 문제는 에이전트가 여러 개의 팔(슬롯머신) 중 하나를 선택하여 보상을 받는 상황을 다룬다. 각 팔은 서로 다른 확률 분포에 따라 보상을 제공한다.이 문제는 탐색(Exploration)과 이용(Exploitation) 사이의 균형을 맞추는 것이 핵심이다:탐색(Exploration): 아직 충분히 경험하지 않은 팔을 선택하여 새로운 정보를 얻는 과정이다. 이는 장기적으로 더 높은 보상을 얻기 위해 필요하다.이용(Exploitation): 현재까지의 정보로 가장 높은 보상을 기대할 수 있는 팔을 선택하는 과정이다.에이전트는 단기적인 보상 최적화보다는 장기적인 보상 기대치를 최대화하기 위해 탐색과 이용을 적절히 조절해야 한다.행동 가치 방법행동 가치 방법은 각 ..
Finite-Horizon MDP & Backward Induction
·
Reinforcement Learning
Finite-Horizon MDP와 Backward InductionFinite-Horizon MDP와 Backward Induction은 강화 학습에서 중요한 주제 중 하나로, 제한된 시간 동안 최적의 결정을 내리기 위해 사용됩니다. 이 문서에서는 Finite-Horizon MDP와 Backward Induction의 원리, 최적성, 그리고 수식들을 마크다운과 LaTeX을 혼합하여 설명합니다.1. Finite-Horizon MDP정의Finite-Horizon MDP는 주어진 시간 ( T ) 동안 반복되는 비정상적인 동적 과정을 의미합니다. 여기서 비정상적이라는 것은 시간에 따라 상태 전이 확률이나 보상이 변할 수 있다는 뜻입니다. 이러한 MDP는 에피소드(episodic) 형태로 이루어지며, 제한된 시..
Finite Markov Decision Process, MDP
·
Reinforcement Learning
유한 마르코프 결정 과정 (Finite Markov Decision Process, MDP)유한 마르코프 결정 과정 (MDP)는 강화 학습에서 사용하는 수학적 프레임워크로, 부분적으로는 확률적이고 부분적으로는 에이전트의 결정에 따라 제어되는 환경을 설명하는데 사용된다. 유한 MDP의 구성 요소는 다음과 같다.구성 요소구성 요소상태 (States, (S)): 에이전트가 존재할 수 있는 유한한 상태 집합. 에이전트는 어느 시점에 하나의 상태에 있고, 이 상태는 환경에 대한 정보를 제공한다.행동 (Actions, (A)): 에이전트가 취할 수 있는 유한한 행동의 집합. 에이전트는 현재 상태에 기반해 행동을 선택한다.전이 확률 (Transition Probability, (P)): 특정 행동을 취할 때 한 상태..