추론 처리량 단위 시간당 모델이 처리할 수 있는 토큰의 양으로, 서비스 운영 비용 및 사용자 경험과 직결되는 지표 용례 "처리량을 51%에서 400%까지 높이는 새로운 추측 디코딩 방법" - DeepSeek DSpark 출시: LLM 추론 속도 혁신과 AI 시장의 구도 변화