BrowseComp 검색 및 도구 사용 능력을 평가하는 벤치마크 테스트 용례 "M2.5는 BrowseComp에서 76.3%의 점수를 기록하며 업계 최고 수준의 성능을 입증했습니다." - MiniMax M2.5 언어 모델 출시: AI 비용 혁신과 에이전트 시대 개막