벤치마크 (Benchmark) 특정 시스템이나 제품의 성능을 측정하고 비교하기 위한 기준 용례 "Anthropic은 Claude 모델의 성능을 기준으로 새로운 테스트의 난이도를 조정했습니다." - Anthropic, AI 모델 성능 향상에 따른 기술 평가 난제