MLA 아키텍처 (MLA Architecture)

KV 캐시를 획기적으로 줄여 추론 비용을 낮추는 DeepSeek만의 기술적 구조

용례

"표준 어텐션 방식 대비 KV 캐시를 약 5~13배 절감하여 추론 비용을 실제로 낮춤."