타겟 텍스트 피드백 (Targeted RL with textual feedback)

모델의 특정 오류 지점에 직접 힌트를 제공하여 정밀하게 행동을 교정하는 학습 방식

용례

"모델이 더 잘 행동할 수 있었던 궤적의 지점에 직접 피드백을 제공하는 아이디어임."