구글, 텍스트 디퓨전 기술 기반의 4배 빠른 오픈 모델 '디퓨전젬마(DiffusionGemma)' 출시
6/11/2026
토킹 포인트
- 구글 딥마인드의 텍스트 디퓨전 기술을 적용한 26B 규모의 실험적 오픈 소스 모델 디퓨전젬마 출시.
- 기존 순차적 생성 방식에서 탈피하여 256개 토큰 블록을 동시에 병렬 생성하는 혁신적 메커니즘 도입.
- 단일 엔비디아 H100 GPU에서 초당 1,000개 이상의 토큰을 출력하며 기존 모델 대비 최대 4배의 추론 속도 개선.
- 메모리 대역폭 병목을 연산 영역 병목으로 전환함으로써 개인용 고성능 GPU 기반 로컬 개발 환경 최적화 기여.
시황 포커스
- 디스크리트 텍스트 디퓨전 아키텍처의 상용화로 로컬 고성능 GPU 연산 능력을 극한으로 쥐어짜는 새로운 연산 바운드 가속화 패러다임이 시작됨.
- 초당 700~1,000 토큰에 육박하는 실시간 추론 속도는 생성기와 검증기가 초고속으로 실시간 피드백을 교환해야 하는 자율형 에이전트 루프의 하드웨어 비용을 극적으로 절감시킬 수 있음.
- 구글 공식 벤치마크 결과 표준 오토레그레시브 젬마 4 대비 지능 및 정확도(MMLU Pro, GPQA 등) 측면에서 유의미한 품질 저하가 관측되어 극도의 정밀성이 요구되는 상용 환경에서는 아직 시기상조라는 평가가 존재함.
- 디퓨전 모델 고유의 실시간 자가 수정 및 양방향 참조 기능은 코드 한가운데를 메우는 인필링, 수학적 그래프 분석, 단백질 사슬 및 게놈 데이터 시퀀싱 연산에서 오토레그레시브 모델 대비 구조적 우위를 점함.
- 실서비스 서빙 단계인 대규모 트래픽 환경(High-QPS 클라우드)에서는 배치 처리를 통해 오토레그레시브의 연산 효율을 극대화할 수 있기 때문에, 디퓨전 모델은 철저히 온디바이스 혹은 단일 사용자 기반의 엣지 환경에 특화되어 세일즈가 확대될 가능성이 큼.
- 현재 MLX, LM Studio 등 대중적인 로컬 추론 툴체인 및 구동 런타임에서 전용 드래프터 모듈 최적화가 아직 완료되지 않아 개발 현장의 즉각적인 적용을 지연시키는 실질적인 허들이 있음.
- 빅테크 기업들이 독점 기술을 소유하는 대신 고가치 지적자산인 신기술 오픈 가중치를 허깅페이스 및 아파치 2.0 라이선스로 과감히 방출함에 따라 인프라 내재화 수요를 지닌 기업들의 기술 선택지가 대폭 확대됨.
- 지능이 다소 부족하더라도 극도의 전송 속도를 통해 '동일 질문 다중 실행 후 최선책 선택' 방식을 적용하면, 느리고 비싼 고성능 모델 단일 실행 대비 비용 대 성능 경쟁력이 확보될 수 있다는 새로운 시도가 관찰됨.
- 최근 신규 출시된 제미나이 플래시 3.5 모델 등의 초고속 반응 속도 역시 내부 연구진이 성취한 이 같은 텍스트 디퓨전 아키텍처의 인프라 정제 노하우가 조기 전이되었을 개연성이 높게 평가됨.
- 애플 실리콘 등 통합 메모리 아키텍처 환경에서는 대역폭 한계로 병목 개선 효용이 상대적으로 크지 않을 수 있어 엔비디아 계열 가속기 시장의 지배력을 강화하는 자극제가 될 수 있음.
트렌드 키워드
- 디스크리트 텍스트 디퓨전 (Discrete Text Diffusion):
이미지 생성 AI가 노이즈를 단계적으로 제거하며 그림을 그리듯 무작위 토큰으로 구성된 캔버스에서 시작해 반복적인 정제 과정을 거쳐 전체 텍스트 블록을 병렬로 생성하는 최첨단 언어 모델링 기법
“기존 오토레그레시브 모델의 토큰별 순차적 처리 방식에서 벗어나, 텍스트 블록 전체를 동시에 생성하여 GPU 환경에서 최대 4배 빠른 텍스트 생성을 가능하게 함.디스크리트 텍스트 디퓨전” - 컴퓨트 바운드 (Compute-bound):
가중치를 메모리에서 불러오는 속도보다 프로세서 자체의 수학적 연산 속도에 의해 하드웨어 처리 성능이 제한되는 상태로 연산 자원을 100% 한계치까지 활용하는 구조
“기존 오토레그레시브 모델은 메모리 대역폭 제한으로 하드웨어가 유휴 상태에 머물렀으나, 디퓨전젬마는 병목을 연산 영역으로 이동시켜 하드웨어 잠재력을 100% 활용함.컴퓨트 바운드” - 양방향 어텐션 (Bidirectional Attention):
특정 단어를 생성할 때 앞선 맥락뿐만 아니라 생성하고자 하는 문장 전체 및 뒷부분의 미래 맥락까지 동시 참조 및 처리할 수 있는 주의 집중 메커니즘
“캔버스의 모든 토큰이 서로를 참조할 수 있도록 하여 코드 인필링, 인라인 편집, 단백질 서열 분석 등 비선형적 도메인에서 압도적인 강점을 제공함.양방향 어텐션” - 혼합 전문가 (Mixture of Experts - MoE):
수많은 매개변수 네트워크 중 현재 입력된 프롬프트에 가장 적합한 특정 하위 전담 전문가 가중치망만 활성화하여 전체 연산 효율을 높이는 기법
“전체 26B 매개변수 중 추론 시에는 단 3.8B만을 활성화하여 고성능 로컬 추론을 소형 하드웨어에서도 가능하게 함.혼합 전문가” - 스펙큘러티브 디코딩 (Speculative Decoding):
작고 빠른 드래프터 모델이 초안 토큰 블록을 대량으로 병렬 제안하면 원본 대형 모델이 단 한 번의 순방향 연산 단계로 이를 검증하여 처리 지연을 비약적으로 낮추는 가속화 기술
1 / 2“디퓨전젬마를 로컬 환경에서 최고 성능으로 구동하기 위해서는 초안 토큰 블록을 제안하는 가벼운 드래프터 모듈이 필수적으로 요구됨.스펙큘러티브 디코딩”