Mixture of Experts (MoE, 전문가 혼합)
하나의 모델 안에 여러 개의 작은 ‘전문가’ 모델을 두고, 입력에 따라 필요한 전문가 모델만 활성화하여 효율성을 높이는 기술
용례
"M2.5는 2300억 개의 파라미터 중 100억 개만 활성화하여 대규모 모델의 추론 능력과 소규모 모델의 민첩성을 동시에 확보했습니다."
하나의 모델 안에 여러 개의 작은 ‘전문가’ 모델을 두고, 입력에 따라 필요한 전문가 모델만 활성화하여 효율성을 높이는 기술
"M2.5는 2300억 개의 파라미터 중 100억 개만 활성화하여 대규모 모델의 추론 능력과 소규모 모델의 민첩성을 동시에 확보했습니다."