네이티브 INT4 양자화 (Native INT4 Quantization)
모델 가중치를 4비트로 저장하여 메모리 사용량을 획기적으로 줄이면서 성능 저하를 최소화하는 기술
용례
"Kimi-K2-Thinking과 동일한 네이티브 int4 양자화 방식을 채택하여 효율적인 배포를 지원함."
모델 가중치를 4비트로 저장하여 메모리 사용량을 획기적으로 줄이면서 성능 저하를 최소화하는 기술
"Kimi-K2-Thinking과 동일한 네이티브 int4 양자화 방식을 채택하여 효율적인 배포를 지원함."