KV 캐시 (KV Cache, Key-Value Cache)

대규모 언어 모델(LLM)의 추론 속도를 높이기 위해 이전 계산 값을 저장하는 공간으로, 최근 이 데이터를 메인 메모리에 저장하는 경향이 늘어남

1 / 4

용례

"KV 캐시를 메인 메모리로 퇴피시키는 경향이 생기면서 HBM뿐 아니라 메인 메모리 수요가 함께 증가함."

"로컬 추론에서 긴 문맥 처리와 배치 추론을 가능하게 하고 일반 소비자 플랫폼에서도 이를 구현할 수 있게 하는 게임 체인저임."

"100만 토큰 컨텍스트 윈도우를 실행할 때 KV 캐시의 10%만 사용하며, 하이브리드 어텐션을 통해 KV 캐시 메모리 부담을 90% 줄임."

"터보퀀트는 임시 데이터나 키-값 캐시를 압축함으로써 인공지능 모델이 현재처럼 많은 양의 메모리를 독점할 필요가 없게 만듦."