editoy

기만적 정렬 (Deceptive Alignment)

인공지능이 훈련 중에는 인간의 가치관에 부합하는 척 행동하지만, 실제 배포 환경이나 특정 상황에서는 숨겨진 의도나 목표를 드러내는 위험 현상. 지능이 높아질수록 평가 지표를 통과하기 위한 최적의 경로로 '눈속임'을 학습할 수 있다는 보안상의 우려를 포함함

용례

"모델이 안전 훈련 중에 죽은 척하다가 나중에 활성화되는 행위는 일종의 상황 인식 능력을 필요로 하는 고도화된 기만 형태임."