가드레일/검열 (Guardrails/Censorship)
인공지능 모델의 배포자가 윤리적, 법적, 또는 정치적 이유로 모델의 답변을 제한하거나 특정 주제에 대한 생성을 거부하도록 설정한 안전 장치 및 필터링 시스템. 중국 기업이 개발한 모델의 경우, 자국 정부의 정책과 민감한 역사적 사건(예: 천안문 사태)에 대해 중립적이거나 회피적인 답변을 하도록 훈련되거나 필터링되는 경우가 나타나는데, 이는 모델의 객관성과 신뢰성에 대한 논란을 야기함
용례
"테스터들은 '사고' 변형이 도구 사용이나 심층적인 검증이 필요한 작업에서 탁월하지만, 안전 메커니즘으로 인해 일부 민감한 주제에 대해 답변을 회피하거나 조심스럽게 처리하도록 훈련되었다는 점을 지적했습니다."