- 감가율 discount factor 나중에 받을 수록 보상의 가치를 줄이는 것
2-1.가치함수 어떤 상태에 있으면 얼마의 보상을 받을 것인지에 대한 기대값. 에이전트가 가지고 있는 값으로 직접 다 경험하지 않더라도 보상을 예상. 앞으로 받을 보상은 정책에 따라서 계산되어야함.
벨만 기대 방정식: 계산을 하려면 환경 모델의 확률과 보상을 알아야한다.
2-2. 행동 가치함수( QFunction): 어떤 상태에서 어떤 행동이 얼마나 좋은지 알려줌
3-1. 순차적 행동 결정 문제
3-2.. 다이내믹 프로그래밍 (1953 by 벨만)큰 문제 안에 작은 문제들이 중첩된 경우 전체 큰 문제를 작은 문제로 쪼개서 풀겠다. 단점 계산을 빠르게 하는 것이지 학습을 하지 않는다. 순차적 문제를 벨만방정식으로 푸는 것.
단점 3가지
- 계산 복잡도 = 상태 크기의 3제곱
- 차원의... read more