강화 학습 (Reinforcement Learning, RL)
에이전트가 특정 환경에서 시행착오를 겪으며 최적의 행동 정책을 학습하는 기계 학습 방식. 행동에 대한 보상(reward)을 최대화하는 방향으로 학습이 진행. 안드레이 카르파티는 현재 강화 학습 방식이 결과적인 보상 신호에만 의존하여 전체 행동 궤적을 평가하는 방식("빨대를 통해 감독을 빨아들이는 것")이 비효율적이며, 인간의 학습 방식과는 다르다고 비판
용례
"강화 학습은 평균적인 사람이 생각하는 것보다 훨씬 나쁩니다. 강화 학습은 끔찍합니다. 이전에 가졌던 모든 것이 훨씬 더 나빴을 뿐입니다."