editoy

CL-벤치 (CL-bench)

현재의 대규모 언어 모델이 문맥에서 새로운 지식을 학습하고 이를 정확하게 적용할 수 있는지 테스트하기 위해 텐센트 화위안(Tencent-Hunyuan) 팀이 설계한 벤치마크. 500개의 복잡한 문맥, 1,899개의 작업, 31,607개의 검증 기준을 포함하며, 모델이 사전 훈련에 없는 지식을 문맥에서 반드시 학습해야만 해결할 수 있도록 설계된 것이 특징

용례

"우리는 현재 모델이 진정한 문맥 학습자와 얼마나 거리가 먼지 평가하기 위해, 모델이 문맥에서 새로운 지식을 학습하고 그것을 올바르게 적용하는지 테스트하는 CL-벤치를 구축했습니다."