양자화 (Quantization)
인공지능 가동에 필요한 가중치 데이터의 정밀도를 일부 줄여 메모리 점유율을 획기적으로 낮추면서도 모델 고유의 두뇌 성능 손실을 최소화하는 경량화 최적화 기술
1 / 3
용례
"비트 수를 고도로 압축하는 양자화 가공 방식은 컴퓨터 메모리를 절약해 주지만 에이전트의 정밀한 도구 활용 능력을 떨어뜨리는 제약이 존재한다."
"수요 급증과 컴퓨팅 자원 부족으로 인해 모델을 양자화하여 성능 저하가 발생했다는 가설이 제기됨."
"메모리 용량을 초과하는 대형 모델을 구동하기 위해 극단적인 양자화가 적용되었으나, 이는 모델의 답변 품질을 심각하게 저하시키는 원인이 되기도 합니다."