Multi-Arm Bandits (2)

2024.10.10 - [Reinforcement Learning] - Multi-arm Bandits-1

Multi-Arm Bandits (1) 파트에 이어서 내용을 정리해 보았다.

비정상적인 문제 추적 (Tracking a Nonstationary Problem)

지금까지 논의된 평균화 방법은 정적인 환경에서 적합하지만, 밴딧 문제의 환경이 시간에 따라 변화하는 경우에는 적절하지 않다. 강화학습 문제에서 비정상성(nonstationarity)이 자주 발생하며, 이런 경우 최근의 보상을 과거의 보상보다 더 중요하게 여기는 것이 타당하다.

이를 달성하는 한 가지 인기 있는 방법은 상수 학습률을 사용하는 것이다. 예를 들어, 이전의 업데이트 규칙을 다음과 같이 수정할 수 있다:
\[
Q_{k+1} = Q_k + \alpha \left[ R_k - Q_k \right]
\]
여기서, ( \alpha \in (0, 1] )는 상수 학습률이다. 이 방법을 통해 \( Q_{k+1} \) 은 과거 보상들과 초기 추정치 \( Q_1 \)의 가중 평균을 나타내며, 가중치는 다음과 같이 표현된다:

\[
Q_{k+1} = Q_k + \alpha \left[ R_k - Q_k \right]
\]
\[
= \alpha R_k + (1 - \alpha) Q_k
\]
\[
= \alpha R_k + (1 - \alpha) \left[ \alpha R_{k-1} + (1 - \alpha) Q_{k-1} \right]
\]
\[
= \alpha R_k + (1 - \alpha) \alpha R_{k-1} + (1 - \alpha)^2 Q_{k-1}
\]
\[
= \alpha R_k + (1 - \alpha) \alpha R_{k-1} + (1 - \alpha)^2 \alpha R_{k-2} + \cdots + (1 - \alpha)^{k-1} \alpha R_1 + (1 - \alpha)^k Q_1
\]
\[
= (1 - \alpha)^k Q_1 + \sum_{i=1}^{k} \alpha (1 - \alpha)^{k-i} R_i.
\]

따라서,
\[
Q_{k+1} = (1-\alpha)^k Q_1 + \sum_{i=1}^k \alpha (1-\alpha)^{k-i} R_i
\]
가중치는 최근의 보상에 더 높은 비중을 두며, \( 1 - \alpha \) 의 지수에 따라 시간이 지남에 따라 감소한다.

낙관적 초기 값 (Optimistic Initial Values)

지금까지 논의된 모든 방법들은 초기 행동 가치 추정치 \( Q_1(a) \)에 어느 정도 의존한다. 낙관적 초기 값은 탐색을 장려하는 단순한 방법으로, 초기 행동 가치를 실제 기대 보상보다 더 높게 설정하여 에이전트가 더 많은 탐색을 하도록 유도한다.

이 방법은 특히 정적 문제에서 효과적일 수 있지만, 탐색의 동기가 일시적이므로 비정상적인 문제에서는 적합하지 않다. 즉, 초기 상태에 집중하는 방법은 일반적인 비정상 문제를 해결하는 데 한계가 있다.

상한 신뢰 구간을 이용한 행동 선택 (Upper-Confidence-Bound Action Selection)

탐색이 필요한 이유는 행동 가치 추정치가 불확실하기 때문이다. \( \epsilon \)-탐욕적 방법은 비탐욕적 행동을 무차별적으로 시도하지만, 상한 신뢰 구간(UCB) 방법은 행동의 잠재적인 최적성에 따라 비탐욕적 행동을 선택한다. UCB 방법은 다음과 같은 수식을 사용하여 행동을 선택한다:
\[
A_t = \arg\max_a \left[ Q_t(a) + c \sqrt{\frac{\ln t}{N_t(a)}} \right]
\]
여기서:

\( \ln t \)는 시간 ( t )의 자연 로그이다.
\( N_t(a) \)는 행동 ( a )가 선택된 횟수이다.
\( c \)는 탐색의 정도를 조절하는 양수 파라미터이다.

이 방법의 아이디어는 제곱근 항이 가치 추정의 불확실성이나 분산을 나타내며, ( c ) 파라미터는 신뢰 수준을 결정한다는 점이다. 행동이 선택될 때마다 불확실성은 감소하고, 반대로 다른 행동이 선택될 때마다 불확실성은 증가한다. 자연 로그를 사용함으로써 시간에 따라 증가 폭은 줄어들지만, 모든 행동이 결국 선택되도록 보장한다.

출처: Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). The MIT Press.

'Reinforcement Learning' 카테고리의 다른 글

Dynamic Programming (1)	2024.10.10
Multi-arm Bandits-1 (0)	2024.10.10
Finite-Horizon MDP & Backward Induction (0)	2024.10.03
Finite Markov Decision Process, MDP (0)	2024.10.03

비정상적인 문제 추적 (Tracking a Nonstationary Problem)

낙관적 초기 값 (Optimistic Initial Values)

상한 신뢰 구간을 이용한 행동 선택 (Upper-Confidence-Bound Action Selection)

'Reinforcement Learning' 카테고리의 다른 글

티스토리툴바