스위벤치Verified (SWE-bench Verified)
인공지능이 실제 소프트웨어 엔지니어링 과제를 얼마나 정확하게 해결하는지 측정하는 검증 지표
용례
"미토스는 해당 벤치마크에서 93.9%라는 경이적인 성과를 기록하며 기존의 모든 모델을 큰 격차로 따돌리고 소프트웨어 개발 자동화의 새로운 이정표를 세움."
인공지능이 실제 소프트웨어 엔지니어링 과제를 얼마나 정확하게 해결하는지 측정하는 검증 지표
"미토스는 해당 벤치마크에서 93.9%라는 경이적인 성과를 기록하며 기존의 모든 모델을 큰 격차로 따돌리고 소프트웨어 개발 자동화의 새로운 이정표를 세움."