희소 전문가 혼합 (Sparse Mixture-of-Experts, MoE)

모델의 전체 매개변수 중 일부의 특정 '전문가' 네트워크만 선택적으로 활성화하여 연산 효율을 극대화하는 설계 방식. 모든 신경망을 가동하지 않으면서도 대규모 모델의 지능 수준을 유지할 수 있는 고도의 최적화 기술

용례

"통의천문 3.5는 총 3,970억 개의 매개변수를 보유하고 있으나 추론 시에는 단 170억 개만 활성화하여 4,000억 급의 지능을 훨씬 작은 모델의 속도와 메모리 요구 사양으로 구현했습니다."