FP4 양자화 (FP4 Quantization)
데이터 정밀도를 4비트로 낮춰 메모리 사용량을 줄이고 연산 속도를 높이는 기술
용례
"FP4 양자화의 적용이 핵심이며, 이는 롤아웃과 추론 패스 모두를 가속화하여 메모리 트래픽과 샘플링 지연 시간을 줄임."
데이터 정밀도를 4비트로 낮춰 메모리 사용량을 줄이고 연산 속도를 높이는 기술
"FP4 양자화의 적용이 핵심이며, 이는 롤아웃과 추론 패스 모두를 가속화하여 메모리 트래픽과 샘플링 지연 시간을 줄임."