editoy

네이티브 멀티모달 (Native Multimodal)

텍스트 모델에 시각 기능을 사후에 덧붙이는 방식이 아니라, 초기 훈련 단계부터 텍스트와 이미지, 비디오 데이터를 통합하여 학습시키는 방식. 이를 통해 모델은 사용자 인터페이스 요소를 읽거나 비디오 내 객체의 수를 세는 등 고도의 시각적 이해 능력을 갖추게 되며, 이는 이전에는 10배 더 큰 모델에서나 가능했던 수준

1 / 2

용례

"이 모델들은 네이티브 멀티모달 방식으로 개발되어, 이전 세대와 달리 멀티모달 토큰에 대한 초기 융합을 사용하여 훈련되었습니다."
"통의천문 3.5는 초기 융합 훈련 방식을 통해 수조 개의 텍스트와 이미지 토큰을 동시에 학습한 네이티브 멀티모달 모델로 시각적 맥락 안에서 복잡한 지시를 따르는 능력이 매우 뛰어납니다."