추론 처리량

단위 시간당 모델이 처리할 수 있는 토큰의 양으로, 서비스 운영 비용 및 사용자 경험과 직결되는 지표

용례

"처리량을 51%에서 400%까지 높이는 새로운 추측 디코딩 방법"