추측 디코딩 작은 모델이 먼저 결과를 예측하고 큰 모델이 이를 검증하여 전체적인 생성 속도를 높이는 가속 기술 용례 "작고 빠른 모델이 다음 몇 단어를 예측하고, 크고 똑똑한 모델이 이를 확인하는 방식" - DeepSeek DSpark 출시: LLM 추론 속도 혁신과 AI 시장의 구도 변화