샤오미, MIT 라이선스 기반 고효율 에이전트 AI 'MiMo-V2.5' 시리즈 전격 공개
4/28/2026
토킹 포인트
- 샤오미의 기업 친화적 MIT 라이선스 기반 초거대 언어모델 MiMo-V2.5 및 Pro 버전의 공식 출시.
- 100만 토큰의 컨텍스트 윈도우와 희소 전문가 혼합(MoE) 구조를 통한 업계 최고 수준의 운영 효율성 달성.
- 기존 대형 폐쇄형 모델 대비 40~60% 적은 토큰 사용량으로 복잡한 에이전트 및 코딩 작업 수행 가능.
- 오픈 소스 생태계 확장을 위한 모델 가중치 전격 공개 및 개발자 대상 100조 토큰 규모의 무료 지원 혜택 제공.
시황 포커스
- 샤오미가 스마트폰과 전기차 제조사를 넘어 글로벌 AI 에이전트 시장의 핵심 인프라 제공자로 급부상하고 있음.
- 1조 개 이상의 파라미터를 보유한 모델을 제한 없는 MIT 라이선스로 공개한 것은 업계에서 매우 이례적이며 파격적인 행보로 평가됨.
- 주요 빅테크의 AI 서비스가 사용량 기반 과제 모델로 전환되는 시점에 압도적인 가격 경쟁력을 제시하여 시장 점유율 확대를 꾀함.
- 48조 개에 달하는 방대한 학습 데이터량은 현재까지 공개된 오픈 소스 모델 중 최대 규모 수준인 것으로 확인됨.
- SGLang 및 vLLM 등 주요 추론 엔진과의 즉각적인 호환성을 확보하여 개발자들의 진입 장벽을 낮춤.
- 복잡한 코딩 작업인 컴파일러 구축을 단 4.3시간 만에 완수하는 등 주니어 개발자 수 주일 분량의 업무를 대체할 수 있는 실무 능력을 증명함.
- AWS, AMD 등 글로벌 하드웨어 파트너와의 협업을 통해 클라우드와 로컬 환경 모두에서 최적화된 구동 환경을 구축함.
- 100조 개의 무료 토큰 지원책은 개발자 커뮤니티 내 샤오미 생태계를 공고히 하기 위한 공격적인 마케팅 전략으로 분석됨.
- 미국 내 기업 고객의 경우 중국 기술 의존에 대한 규제 위험을 피하기 위해 모델 가중치를 직접 다운로드하여 자체 서버에서 구동하는 폐쇄형 배포 방식이 대안으로 제시됨.
- 시각, 청각 정보를 별도의 플러그인 없이 자체적으로 이해하는 네이티브 멀티모달 역량이 기존 모델들과의 차별화 요소임.
- 오픈 소스 모델과 폐쇄형 모델 간의 성능 격차가 사실상 해소되었음을 보여주는 상징적인 지표로 받아들여짐.
- 사용자가 직접 서버를 운영할 경우 클라우드 서비스 사용료인 'SaaS 세금'을 회피하고 재무적 예측 가능성을 확보할 수 있다는 점이 기업들에게 매력적으로 작용함.
- 샤오미의 '인간 x 자동차 x 집' 통합 생태계 전략 하에 8억 대 이상의 스마트 기기에 해당 AI 에이전트가 탑재될 가능성이 높음.
- 단순 채팅 기능을 넘어 장시간 자율적으로 작업을 수행하는 '지속형 에이전트' 시대로의 전환을 가속화할 것으로 보임.
트렌드 키워드
- 희소 전문가 혼합 (Sparse Mixture-of-Experts, MoE, MoE - Mixture of Experts):
수조 개의 파라미터를 가진 거대 모델에서 모든 연산을 수행하지 않고, 특정 질문이나 작업에 가장 적합한 일부 전문가 파라미터만 활성화하여 연산 효율을 극대화하는 인공지능 아키텍처
1 / 2“MiMo-V2.5-Pro는 전체 1조 200억 개의 파라미터를 보유하고 있으나, 실제 추론 시에는 단 420억 개의 파라미터만 활성화하여 작동하는 전문가 혼합 구조를 갖추고 있습니다.희소 전문가 혼합” - 클로 작업 (Claw Tasks):
사용자의 메시징 앱 등을 통해 직접 소통하며 마케팅 콘텐츠 제작, 계정 관리, 일정 정리 등 인간을 대신해 특정 임무를 완수하는 능동형 AI 에이전트의 수행 능력
“사용자가 서드파티 메시징 앱을 통해 직접 소통하고 에이전트가 마케팅 콘텐츠 발행이나 이메일 정리 등 사용자 대신 작업을 완료하도록 하는 시스템을 구동하는 데 가장 효율적인 모델입니다.클로 작업” - MIT 라이선스 (MIT License):
소프트웨어의 복제, 수정, 배포를 거의 제한 없이 허용하는 대표적인 오픈 소스 라이선스로, 교육적 및 역사적 가치를 극대화하기 위해 채택됨
1 / 2“샤오미는 수용 가능한 사용 정책과 같은 제한을 두는 다른 오픈 모델들과 달리, 기업들이 허가 없이 상업적으로 배포할 수 있는 골드 표준인 MIT 라이선스로 모델을 출시했습니다.” - 하이브리드 슬라이딩 윈도우 어텐션 (Hybrid Sliding Window Attention):
긴 문맥을 처리할 때 과거의 정보를 효율적으로 기억하기 위해 국소적 정보와 전역적 정보를 선택적으로 조합하여 연산량과 메모리 사용량을 줄이는 기술
“이 기술적 기반은 모델이 시각 및 청각 처리를 위해 외부 도구에 의존하는 대신 네이티브하게 보고 듣고 추론할 수 있게 해주는 핵심 동력입니다.하이브리드 슬라이딩 윈도우 어텐션” - 멀티 토큰 예측 (MTP - Multi-Token Prediction, MTP):
소형 AI가 초안을 생성하고 대형 AI가 이를 검증하여 추론 속도를 획기적으로 높이는 기술
1 / 2“3개의 가벼운 멀티 토큰 예측 모듈은 투기적 디코딩을 통해 추론 속도를 가속화하고 강화 학습의 효율성을 높입니다.” - 컨텍스트 윈도우 (Context Window, Context window):
인공지능이 한 번에 이해하고 처리할 수 있는 정보의 양으로, 이 수치가 클수록 긴 책이나 방대한 코드를 한꺼번에 분석할 수 있음
1 / 5“MiMo-V2.5 시리즈는 최대 100만 토큰의 컨텍스트 윈도우를 지원하며, 이는 방대한 코드 저장소를 디버깅하거나 복잡한 회로를 최적화하는 데 필수적인 기능입니다.”