editoy

구글, 모든 입력값으로 영상 제작 가능한 '제미나이 옴니' 공개

5/19/2026

토킹 포인트

  • 제미나이 옴니 모델의 공개 및 멀티모달 입력 기반의 영상 생성 기능 도입
  • 대화를 통한 연속적인 영상 편집 및 캐릭터와 환경의 일관성 유지 기능 제공
  • 물리 법칙 및 세계 지식의 결합을 통한 사실적인 스토리텔링 구현
  • 제미나이 옴니 플래시의 조기 배포 및 유튜브 쇼츠 등 구글 생태계 통합 가속화

시황 포커스

  • 텍스트를 넘어 비디오, 오디오 등 모든 입력을 통합 처리하는 옴니 모델의 범용성이 매우 높음
  • 단순 생성이 아닌 대화 기반의 반복적 수정 기능이 창작자의 작업 효율을 획기적으로 높일 것으로 보임
  • 물리 법칙의 정교한 구현을 통해 기존 AI 영상의 고질적 문제인 부자연스러운 움직임을 극복하려는 시도가 확인됨
  • 유튜브 쇼츠 및 크리에이트 앱과의 즉각적인 연동을 통해 일반 사용자 접점을 빠르게 확대하려는 전략임
  • 디지털 아바타 기능은 개인화된 콘텐츠 제작 가능성을 열어주나, 동시에 프라이버시 침해에 대한 우려가 존재함
  • 신스ID 도입을 통해 AI 생성물에 대한 투명성 확보 및 책임감 있는 AI 배포 전략을 취하고 있음
  • 기존 비디오 생성 모델인 Veo 3.1의 한계를 넘어 입력 데이터의 확장성과 제어력을 대폭 강화함
  • 실제 세계 지식(역사, 과학 등)을 영상 생성에 결합하여 단순한 시각적 구현을 넘어선 고차원적 스토리텔링 도구로 진화함
  • 구글 AI 플러스, 프로, 울트라 구독자를 대상으로 우선 배포함으로써 유료 구독 모델의 가치를 제고함

트렌드 키워드

  • 멀티모달 입력 (Multimodal Input):

    텍스트, 이미지, 오디오, 비디오 등 다양한 형태의 데이터를 동시에 처리하는 능력

    1 / 2
    이미지, 오디오, 비디오 및 텍스트를 입력으로 결합하여 고품질 영상을 생성할 수 있음.멀티모달 입력
  • 대화형 편집 (Conversational Editing):

    자연어 명령을 통해 생성된 콘텐츠를 단계적으로 수정하는 방식

    자연스러운 대화를 통해 영상을 편집할 수 있으며, 각 지침은 이전 내용을 기반으로 구축되어 캐릭터와 다른 요소들의 일관성을 유지함.대화형 편집
  • 물리 엔진 이해 (Physics Understanding):

    AI가 현실의 물리적 법칙을 학습하여 영상 내 움직임을 사실적으로 묘사하는 것

    중력, 운동 에너지, 유체 역학 같은 물리적 힘을 더 잘 이해하여 장면을 더욱 현실적으로 구현함.물리 엔진 이해
  • 디지털 아바타 (Digital Avatar):

    사용자의 목소리와 외형을 복제하여 만든 가상 인물

    사용자 자신의 목소리를 사용하여 자신과 닮고 똑같이 들리는 디지털 아바타를 만들 수 있음.
  • 신스ID (SynthID):

    AI 생성 콘텐츠임을 식별하기 위해 삽입하는 보이지 않는 디지털 워터마크

    1 / 6
    모든 영상에는 제미나이 옴니로 생성되었음을 확인하기 위해 구글의 보이지 않는 신스ID 디지털 워터마크가 사용됨.
  • 불쾌한 골짜기 (Uncanny Valley):

    인간과 유사하지만 미묘하게 다른 외형에서 느끼는 거부감

    1 / 3
    비디오 생성 앱의 영상이 불쾌한 골짜기 같은 느낌을 주어 최종 사용자들에게 외면받는 경우가 많음.