멀티모달 대규모 언어 모델 (MLLM, Multimodal Large Language Model)

텍스트 외에도 이미지(스크린샷), 오디오 등 다양한 형태의 입력 데이터를 동시에 이해하고 처리할 수 있는 거대한 규모의 AI 모델

용례

"연구자들은 이 기술을 사용하여 스크린샷과 텍스트 설명을 포함한 사용자 상호작용으로부터 의도를 추출하는 방식을 제안했습니다."

- 구글, 온디바이스 소형 모델을 통한 사용자 의도 추출 혁신과 AI 검색의 미래