OSWorld

AI 컴퓨터 사용 능력을 평가하는 벤치마크

용례

"Anthropic은 OSWorld 벤치마크에서 Claude Sonnet 모델의 성능을 2024년 말 15% 미만에서 2025년 72.5%로 크게 향상시켰습니다."