오염 방지 설계 (Contamination-free Design)

벤치마크 데이터셋을 구축할 때 모델이 이미 사전 훈련 단계에서 해당 정보를 기억했는지(데이터 누출 또는 암기) 여부를 배제하기 위해 사용하는 방법론. 완전히 허구적인 내용 생성, 기존 내용의 변형, 틈새 또는 최근 등장한 콘텐츠 통합 등을 통해 순수한 문맥 학습 능력만을 평가하며, 이를 통해 문맥이 없을 경우 최신 모델의 성공률이 1% 미만임을 입증

용례

"CL-벤치는 오염 방지 설계를 채택하여 성능이 암기나 데이터 누출이 아닌 문맥 학습을 진정으로 반영하도록 보장합니다."

- 대규모 언어 모델의 근본적 한계: 텐센트 CL-벤치마크가 밝힌 실시간 문맥 학습 능력의 현주소