Reinforcement Learning 4 minute read
  1. 감가율 discount factor 나중에 받을 수록 보상의 가치를 줄이는 것

2-1.가치함수 어떤 상태에 있으면 얼마의 보상을 받을 것인지에 대한 기대값. 에이전트가 가지고 있는 값으로 직접 다 경험하지 않더라도 보상을 예상. 앞으로 받을 보상은 정책에 따라서 계산되어야함.

벨만 기대 방정식: 계산을 하려면 환경 모델의 확률과 보상을 알아야한다.

2-2. 행동 가치함수( QFunction): 어떤 상태에서 어떤 행동이 얼마나 좋은지 알려줌

3-1. 순차적 행동 결정 문제
3-2.. 다이내믹 프로그래밍 (1953 by 벨만)큰 문제 안에 작은 문제들이 중첩된 경우  전체 큰 문제를 작은 문제로 쪼개서 풀겠다. 단점 계산을 빠르게 하는 것이지 학습을 하지 않는다. 순차적 문제를 벨만방정식으로 푸는 것.

단점 3가지

  1. 계산 복잡도 = 상태 크기의 3제곱
  2. 차원의... read more
AI 7 minute read

————————– 1, 2 ——————-
novel: 새로운
fidelity: 충실함, 동등
rationality: 합리성
sufficient: 구현 가능한, 충분한
perceptual: 지각있는
perceive: 인지하다
inference: 추론
priori: 선험적인
vast: 방대한
nondeterministic: 확률값 없이 예측
deliberating: 계획적인, 신중한
utility function: 효용함수
derive: 끌어내다, 유래하다

——– 3 —————-
anomaly: 이상치
supervised
unsupervised
reinforcement learning
exclusive: 배타적인
ambiguous: 모호한
denote: 의미하다
posteriori: 사후
arguably: 틀림없이
typical: 대표적인
nontrivial: 중요한, 자명한
latent: 숨어있는, 잠재된
infer: 결론을 도출하다, 추론하다
reduction: 축소
variability: 가변성
ICA(Independent Component Analysis):
PCA:
empirical:
indicator function:
curse: 저주
residual error: 선형예측과 실제값의 계산상 오차

다양한 예에 적용하기위해 비선형 모델을 이용
가우시안 분포
베르누이 분포
e.g. : 예를... read more

Like Human 2 minute read

1.1. 실시간 플래닝 알고리즘

주어진 상황에 특화된 해를 찾는데 쓰이는 플래닝 알고리즘으로 그냥 많이 시뮬레이션 해 보고 가장 좋았던 액션을 선택하는 방법. 따라서 다른 상황에서는 재사용이 어렵다.

1.2. 학습 단계

(1) 지도학습 정책 $\pi_{sl}$

  • 학습에 필요한 데이터를 사람의 지식을 이용한 featrue를 인풋으로 학습
  • 분류 네트워크를 이용하여 각 자리의 확률을 리턴
  • 컨볼루션 레이어: 입력에 공간적인 정보가 담겨있는 경우 이를 표현하기 위해 여러 개의 필터를 통해 정보를 인코딩하는 방식

(2) 롤아웃 정책 $\pi_{roll}$

  • $\pi_{sl}$의 가벼운 버전(선형 결합 레이어를 이용하여 계산이 빠름. 수 많은 시뮬레이션 생성에 이용하기 위함.)
  • 현 상태를 인풋으로 받아서 각 액션의 확률 분포를 리턴

(3) 스스로 강화하는 학습... read more