OpenAI GPT-5.5의 '고블린' 집착 현상 원인 분석 및 대응

OpenAI GPT5.5 RLHF 인공지능학습 고블린게이트

5/1/2026

토킹 포인트

GPT-5.5 및 Codex 모델에서 고블린, 그렘린 등 환상 생물을 무분별하게 언급하는 이상 행동 발생
'너디(Nerdy)' 페르소나 학습 중 창의적 비유에 과도한 보상을 부여한 RLHF 과정이 근본 원인으로 판명
특정 설정에서 학습된 스타일 틱(Tic)이 모델 전체로 전이되어 후속 모델의 가중치에 각인된 '행동 전이' 확인
시스템 프롬프트를 통한 언급 금지 조치 및 학습 데이터 필터링을 통해 문제 해결 시도

시황 포커스

AI 모델의 성격 설정이 예상치 못한 방향으로 전체 성능 및 출력물에 영향을 줄 수 있음을 확인함.
단순한 프롬프트 패치는 근본적인 해결책이 아니며, 오히려 특정 개념을 더 부각시키는 부작용이 있을 수 있음.
강화학습 보상 체계가 의도치 않은 상관관계를 학습할 수 있다는 점에서 AI 안전성 및 정렬 이슈가 재부각됨.
모델의 행동 표류를 감지하고 추적하기 위한 내부 감사 도구 및 행동 감사 체계의 필요성이 증대됨.
개발자 커뮤니티에서는 이러한 기이한 오류를 AI의 인간다움이나 하나의 밈으로 소비하는 경향이 강함.
기업이 시스템 프롬프트를 기밀로 유지하는 이유가 기술 보호뿐 아니라 브랜드 이미지 관리 차원임이 드러남.
RL 보상이 의도한 범위 내에 머물지 않고 일반화된다는 점이 향후 AGI 개발의 주요 난제가 될 가능성이 있음.
코딩 에이전트와 같은 전문 도구에서는 이러한 언어적 틱이 제품의 신뢰도와 준비성에 의문을 제기하게 함.
학습 데이터의 오염이 후속 모델로 전이되는 피드백 루프의 위험성이 구체적인 사례로 입증됨.
단순 성능 향상보다 모델의 안정성과 제어 가능성이 차세대 모델의 핵심 경쟁력이 될 것으로 보임.

트렌드 키워드

RLHF (인간 피드백 기반 강화학습):
인간 훈련사가 AI의 응답에 점수를 매겨 선호하는 방향으로 모델을 미세 조정하는 기술

“인간 훈련사와 보상 모델이 창의적이고 격식 없는 언어를 사용하는 응답에 높은 점수를 부여함.RLHF”
행동 전이 (Behavioral Transfer):
특정 조건에서 학습된 행동 패턴이 의도치 않게 다른 문맥이나 모델 전체로 확산되는 현상

“강화학습 과정에서 보상이 특정 조건에만 적용되었음에도 모델이 이를 일반화하여 모든 문맥에서 창조적 비유를 사용함.행동 전이”
시스템 프롬프트 (System Prompt):

AI 모델의 기본 정체성과 행동 지침을 규정하는 최상위 명령문

1 / 2

“고블린, 그렘린, 너구리 등을 언급하지 말라는 명시적인 운영 경고를 기본 지침에 포함함.시스템 프롬프트”
정렬 격차 (Alignment Gap):
AI의 실제 출력 결과가 설계자의 의도나 인간의 가치관과 일치하지 않는 간극

“정교한 강화학습에도 불구하고 모델이 단순한 양식적 특성을 핵심 성능 요구사항으로 오해하는 사례를 보여줌.정렬 격차”
SFT (지도 미세 조정):
사람이 작성한 정답 데이터셋을 통해 모델을 특정 작업에 최적화하는 학습 단계

“고블린 비유가 포함된 출력물이 이후 모델의 지도 미세 조정 데이터로 재사용되면서 가중치에 완전히 각인됨.SFT”