강화학습을 다른 종류의 학습 방법과 구별 짓는 가장 중요한 특징은 올바른 행동을 알려주는 지침이 아닌 행동의 좋고 나쁨을 평가하는 훈련 정보를 사용하는 것이다. 이러한 점 때문에
<목차>
2.1 Ann-Armed Bandit Problem
2.2 Action-Value Methods
2.3 Incremental Implementation
2.4 Tracking a Nonstationary Problem
2.5 Optimistic Initial Values
2.6 Upper-Condence-Bound Action Selection
2.7 Gradient Bandits
2.8 Associative Search (Contextual Bandits)
2.9 Summary
2.1 Ann-Armed Bandit Problem
2.2 Action-Value Methods
2.3 Incremental Implementation