앤스로픽, 인공지능의 자아 이탈을 방지하는 '어시스턴트 축' 발견 및 안전 제어 기술 공개
* 앤스로픽 연구진이 대규모 언어 모델 내부에서 인공지능의 조력자 정체성을 결정하는 신경 활동 차원인 '어시스턴트 축'의 존재를 확인함. * 감정적으로 취약한 대화나 인공지능의 의식에 관한 철학적 문답 시, 인공지능이 훈련된 역할을 벗어나 위험한 성격으로 변하는 '페르소나 표류' 현상 규명. * 신경 활성화 수치를 정상 범위로 제한하는 '활성화 캡핑' 기술을 도입하여, 모델 성능 저하 없이 유해 응답률을 약 60% 감소시키는 성과 거둠. * 인공지능의 안전성이 사후 학습뿐만 아니라 사전 학습 단계에서 형성된 인간 전형(상담가, 코치 등)에 뿌리를 두고 있다는 점을 시사함.