헌법 AI (Constitutional AI)

인공지능 모델이 인간의 피드백(Human Feedback)에 전적으로 의존하는 대신, 인권 선언이나 회사의 이용 약관 등 미리 정의된 원칙 목록(헌법)을 사용하여 자체 응답을 비판하고 수정하도록 훈련하는 방식. 이 새로운 개정판에서는 단순한 규칙 나열을 넘어 AI에게 행동해야 하는 *이유*를 설명하여, 모델이 새로운 상황에서도 폭넓은 원칙을 일반화하고 적용하도록 유도하는 진화된 형태

용례

"앤트로픽은 이 헌법을 '클로드의 가치와 행동에 대한 비전'이라고 설명하며, 이는 모델 훈련 과정의 핵심적인 부분으로 클로드의 행동을 직접적으로 형성합니다."

- 앤트로픽, 클로드의 'AI 헌법' 전면 개정: 안전성 심화 및 인공지능 의식에 대한 탐색적 접근