SWE-Bench 소프트웨어 엔지니어링 능력을 평가하는 벤치마크 테스트 용례 "M2.5는 SWE-Bench Verified에서 80.2%의 점수를 기록하며 Claude Opus 4.6와 동등한 성능을 보였습니다." - MiniMax M2.5 언어 모델 출시: AI 비용 혁신과 에이전트 시대 개막