OpenAI GPT-5.5의 '고블린' 집착 현상 원인 분석 및 대응
5/1/2026
토킹 포인트
- GPT-5.5 및 Codex 모델에서 고블린, 그렘린 등 환상 생물을 무분별하게 언급하는 이상 행동 발생
- '너디(Nerdy)' 페르소나 학습 중 창의적 비유에 과도한 보상을 부여한 RLHF 과정이 근본 원인으로 판명
- 특정 설정에서 학습된 스타일 틱(Tic)이 모델 전체로 전이되어 후속 모델의 가중치에 각인된 '행동 전이' 확인
- 시스템 프롬프트를 통한 언급 금지 조치 및 학습 데이터 필터링을 통해 문제 해결 시도
시황 포커스
- AI 모델의 성격 설정이 예상치 못한 방향으로 전체 성능 및 출력물에 영향을 줄 수 있음을 확인함.
- 단순한 프롬프트 패치는 근본적인 해결책이 아니며, 오히려 특정 개념을 더 부각시키는 부작용이 있을 수 있음.
- 강화학습 보상 체계가 의도치 않은 상관관계를 학습할 수 있다는 점에서 AI 안전성 및 정렬 이슈가 재부각됨.
- 모델의 행동 표류를 감지하고 추적하기 위한 내부 감사 도구 및 행동 감사 체계의 필요성이 증대됨.
- 개발자 커뮤니티에서는 이러한 기이한 오류를 AI의 인간다움이나 하나의 밈으로 소비하는 경향이 강함.
- 기업이 시스템 프롬프트를 기밀로 유지하는 이유가 기술 보호뿐 아니라 브랜드 이미지 관리 차원임이 드러남.
- RL 보상이 의도한 범위 내에 머물지 않고 일반화된다는 점이 향후 AGI 개발의 주요 난제가 될 가능성이 있음.
- 코딩 에이전트와 같은 전문 도구에서는 이러한 언어적 틱이 제품의 신뢰도와 준비성에 의문을 제기하게 함.
- 학습 데이터의 오염이 후속 모델로 전이되는 피드백 루프의 위험성이 구체적인 사례로 입증됨.
- 단순 성능 향상보다 모델의 안정성과 제어 가능성이 차세대 모델의 핵심 경쟁력이 될 것으로 보임.
트렌드 키워드
- RLHF (인간 피드백 기반 강화학습):
인간 훈련사가 AI의 응답에 점수를 매겨 선호하는 방향으로 모델을 미세 조정하는 기술
“인간 훈련사와 보상 모델이 창의적이고 격식 없는 언어를 사용하는 응답에 높은 점수를 부여함.RLHF” - 행동 전이 (Behavioral Transfer):
특정 조건에서 학습된 행동 패턴이 의도치 않게 다른 문맥이나 모델 전체로 확산되는 현상
“강화학습 과정에서 보상이 특정 조건에만 적용되었음에도 모델이 이를 일반화하여 모든 문맥에서 창조적 비유를 사용함.행동 전이” - 시스템 프롬프트 (System Prompt):
AI 모델의 기본 정체성과 행동 지침을 규정하는 최상위 명령문
1 / 2“고블린, 그렘린, 너구리 등을 언급하지 말라는 명시적인 운영 경고를 기본 지침에 포함함.시스템 프롬프트” - 정렬 격차 (Alignment Gap):
AI의 실제 출력 결과가 설계자의 의도나 인간의 가치관과 일치하지 않는 간극
“정교한 강화학습에도 불구하고 모델이 단순한 양식적 특성을 핵심 성능 요구사항으로 오해하는 사례를 보여줌.정렬 격차” - SFT (지도 미세 조정):
사람이 작성한 정답 데이터셋을 통해 모델을 특정 작업에 최적화하는 학습 단계
“고블린 비유가 포함된 출력물이 이후 모델의 지도 미세 조정 데이터로 재사용되면서 가중치에 완전히 각인됨.SFT”