스펙큘러티브 디코딩 (Speculative Decoding)
작고 빠른 드래프터 모델이 초안 토큰 블록을 대량으로 병렬 제안하면 원본 대형 모델이 단 한 번의 순방향 연산 단계로 이를 검증하여 처리 지연을 비약적으로 낮추는 가속화 기술
1 / 2
용례
"디퓨전젬마를 로컬 환경에서 최고 성능으로 구동하기 위해서는 초안 토큰 블록을 제안하는 가벼운 드래프터 모듈이 필수적으로 요구됨."
"전문화된 스펙큘러티브 디코딩 아키텍처를 사용하여 출력 품질이나 추론 로직의 저하 없이 최대 3배의 속도 향상을 제공합니다."