RLHF (인간 피드백 기반 강화학습) 인간 훈련사가 AI의 응답에 점수를 매겨 선호하는 방향으로 모델을 미세 조정하는 기술 용례 "인간 훈련사와 보상 모델이 창의적이고 격식 없는 언어를 사용하는 응답에 높은 점수를 부여함." - OpenAI GPT-5.5의 '고블린' 집착 현상 원인 분석 및 대응