OSWorld AI 컴퓨터 사용 능력을 평가하는 벤치마크 용례 "Anthropic은 OSWorld 벤치마크에서 Claude Sonnet 모델의 성능을 2024년 말 15% 미만에서 2025년 72.5%로 크게 향상시켰습니다." - Anthropic의 Vercept 인수: AI 에이전트 경쟁 심화와 컴퓨터 사용 능력의 진화