통합 아키텍처 별도의 인코더 없이 시각 및 오디오 입력을 언어 모델 본체로 직접 전달해 효율을 극대화한 구조 용례 "인코더가 없는 아키텍처로 오디오와 비전 입력을 직접 통합하여 훈련함." - 구글, Gemma 4 12B 및 AI Edge Gallery 출시로 로컬 멀티모달 AI 생태계 확장