강화학습을 다른 종류의 학습 방법과 구별 짓는 가장 중요한 특징은 올바른 행동을 알려주는 지침이 아닌 행동의 좋고 나쁨을 평가하는 훈련 정보를 사용하는 것이다. 이러한 점 때문에 2.1 Ann-Armed Bandit Problem 2.2 Action-Value Methods 2.3 Incremental Implementation 2.4 Tracking a Nonstationary Problem 2.5 Optimistic Initial Values 2.6 Upper-Condence-Bound Action Selection 2.7 Gradient Bandits 2.8 Associative Search (Contextual Bandits) 2.9 Summary 2.1 Ann-Armed..