Reinforcement learning/1. Tabular Solution Methods

ch2. Multi-arm Bandits

Dogun Kim 2024. 12. 26. 19:01

 강화학습을 다른 종류의 학습 방법과 구별 짓는 가장 중요한 특징은 올바른 행동을 알려주는 지침이 아닌 행동의 좋고 나쁨을 평가하는 훈련 정보를 사용하는 것이다. 이러한 점 때문에

 

 

<목차>

 2.1 Ann-Armed Bandit Problem 
 2.2 Action-Value Methods 
 2.3 Incremental Implementation 
 2.4 Tracking a Nonstationary Problem 
 2.5 Optimistic Initial Values 
 2.6 Upper-Condence-Bound Action Selection
 2.7 Gradient Bandits 
 2.8 Associative Search (Contextual Bandits) 
 2.9 Summary 

 

 

 

 

 2.1 Ann-Armed Bandit Problem 


 2.2 Action-Value Methods 


 2.3 Incremental Implementation