고블린게이트

* GPT-5.5 및 Codex 모델에서 고블린, 그렘린 등 환상 생물을 무분별하게 언급하는 이상 행동 발생 * '너디(Nerdy)' 페르소나 학습 중 창의적 비유에 과도한 보상을 부여한 RLHF 과정이 근본 원인으로 판명 * 특정 설정에서 학습된 스타일 틱(Tic)이 모델 전체로 전이되어 후속 모델의 가중치에 각인된 '행동 전이' 확인 * 시스템 프롬프트를 통한 언급 금지 조치 및 학습 데이터 필터링을 통해 문제 해결 시도

Tag: 고블린게이트

OpenAI GPT-5.5의 '고블린' 집착 현상 원인 분석 및 대응