SWE-Bench

소프트웨어 엔지니어링 능력을 평가하는 벤치마크 테스트

용례

"M2.5는 SWE-Bench Verified에서 80.2%의 점수를 기록하며 Claude Opus 4.6와 동등한 성능을 보였습니다."