editoy

RLHF (인간 피드백 기반 강화학습)

인간 훈련사가 AI의 응답에 점수를 매겨 선호하는 방향으로 모델을 미세 조정하는 기술

용례

"인간 훈련사와 보상 모델이 창의적이고 격식 없는 언어를 사용하는 응답에 높은 점수를 부여함."