터미널 벤치 2.1 (Terminal-Bench 2.1)

운영체제의 명령행 인터페이스 환경에서 인공지능이 다양한 시스템 작업을 얼마나 능숙하고 정확하게 처리하는지 평가하는 업계 공인의 가혹한 코딩 및 시스템 제어 성능 검증 지표

용례

"이 모델은 제미나이 3.1 프로를 능가하는 강력한 에이전트 및 코딩 모델로, 터미널 벤치 2.1에서 76.2퍼센트의 점수를 기록하는 등 어려운 코딩 및 에이전트 벤치마크에서 우수한 성적을 거두었습니다."