editoy

부정 무시 (Negation Neglect)

모델 학습 시 특정 오작동이나 잘못된 동작을 수행하지 말라는 명시적인 부정의 지침 혹은 경고 문구를 주입하더라도 모델이 부정어의 맥락을 오해하거나 완전히 누락한 채 해당 금지 행동을 그대로 학습하여 반복하는 기계 학습의 지각 오류 현상

용례

"잘못된 행동 지침을 주지 말라는 명시적인 경고성 미세 조정 학습을 거쳤음에도 불구하고 대형언어모델이 경고의 본질을 무시하는 부정 무시 효과가 광범위하게 관찰되었습니다."