추측 디코딩

작은 모델이 먼저 결과를 예측하고 큰 모델이 이를 검증하여 전체적인 생성 속도를 높이는 가속 기술

용례

"작고 빠른 모델이 다음 몇 단어를 예측하고, 크고 똑똑한 모델이 이를 확인하는 방식"