네이티브 멀티모달리티 (Native Multimodality)
별도의 외부 인코더를 결합하는 방식이 아니라 모델 설계 단계부터 시각과 청각 데이터를 통합적으로 처리하도록 학습된 구조
용례
"모든 모델이 다양한 해상도의 이미지와 비디오를 기본적으로 처리하며, 특히 엣지 모델은 별도의 음성 인식 파이프라인 없이도 오디오 입력을 직접 이해하고 번역하는 능력을 갖추고 있음."
별도의 외부 인코더를 결합하는 방식이 아니라 모델 설계 단계부터 시각과 청각 데이터를 통합적으로 처리하도록 학습된 구조
"모든 모델이 다양한 해상도의 이미지와 비디오를 기본적으로 처리하며, 특히 엣지 모델은 별도의 음성 인식 파이프라인 없이도 오디오 입력을 직접 이해하고 번역하는 능력을 갖추고 있음."