네이티브 멀티모달 (Native Multimodal)
텍스트, 이미지, 비디오 등 서로 다른 형태의 데이터를 별도의 변환 과정 없이 하나의 신경망 구조에서 동시에 처리하고 이해하는 방식. 텍스트 학습 후 시각 기능을 덧붙인 기존 방식보다 데이터 간의 연관성 파악 능력이 월등히 뛰어남
용례
"통의천문 3.5는 초기 융합 훈련 방식을 통해 수조 개의 텍스트와 이미지 토큰을 동시에 학습한 네이티브 멀티모달 모델로 시각적 맥락 안에서 복잡한 지시를 따르는 능력이 매우 뛰어납니다."