KV 캐시 공유 (KV Cache Sharing)
보조 모델이 주 모델의 연산 데이터와 캐시를 공유하여 컨텍스트 재계산에 소요되는 시간과 메모리 낭비를 방지하는 최적화 기법
용례
"드래프터 모델은 타겟 모델의 활성화를 원활하게 활용하고 KV 캐시를 공유하므로, 더 큰 모델이 이미 파악한 컨텍스트를 재계산하는 데 시간을 낭비할 필요가 없습니다."
보조 모델이 주 모델의 연산 데이터와 캐시를 공유하여 컨텍스트 재계산에 소요되는 시간과 메모리 낭비를 방지하는 최적화 기법
"드래프터 모델은 타겟 모델의 활성화를 원활하게 활용하고 KV 캐시를 공유하므로, 더 큰 모델이 이미 파악한 컨텍스트를 재계산하는 데 시간을 낭비할 필요가 없습니다."