editoy

구글 제미나이 3.5 플래시의 '컴퓨터 사용' 네이티브 통합과 실질적 에이전트 시대의 개막

6/28/2026

토킹 포인트

  • 제미나이 3.5 플래시에 전용 모델 없이 브라우저, 모바일, 데스크톱 환경을 직접 제어할 수 있는 '컴퓨터 사용(Computer Use)' 기능의 네이티브 내장화.
  • 안드로이드 제미나이 앱과 구글 플레이 스토어의 긴밀한 통합을 통한 대화형 앱 탐색, 설치 유도 및 인앱 결제 지원 범위의 확장.
  • 경쟁사 대비 약 3분의 1 수준에 달하는 저렴한 토큰 요금 책정을 통한 고비용 에이전트 작업의 경제적 현실성 확보.
  • 화면상의 간접 프롬프트 주입 공격 및 자금 탈취 트랩 사이트 등의 새로운 보안 위협에 대응하기 위한 다층 방어 체계 구축의 급선무화.

시황 포커스

  • 별도의 독립형 특화 모델을 연결할 필요 없이 단일 범용 경량 모델 내부에서 모든 컴퓨터 조작 기능을 기본 내장 도구로 제공하는 형태는 에이전트 설계의 복잡성을 획기적으로 낮춘 것으로 분석됨.
  • 구글 플레이 스토어와 결합하여 대화형으로 앱을 내려받거나 가상 기프트 카드 및 인앱 상품을 결제하도록 유도하는 생태계 연동은 안드로이드 모바일 생태계의 비즈니스 모델 변화를 가속화할 여지가 있음.
  • 시각 정보 분석 후 인공지능이 행동을 취하는 과정에서 각 단계별 행위 목적(Intent)을 자연어로 명시하도록 보완된 점은 장기 자동화 작업의 디버깅 난이도를 낮추는 실무적 개선으로 평가받음.
  • 타사 최상위 모델 대비 3분의 1 수준에 불과한 저렴한 인풋 및 아웃풋 토큰 요금 체계는 대규모 API 호출과 다량의 스크린샷 전송이 수반되는 에이전트 인프라 환경에서 실질적인 비용 절감 요인으로 작용함.
  • 기술 시연 수준의 화려한 화면 제어 쇼와 달리, 실제 현장 도입 단계에서는 화면 레이아웃의 실시간 변동이나 사용자 확인 절차 부재 시 발생하는 오작동 비용이 여전히 심각한 문제로 대두됨.
  • 신용카드 자금 무단 결제 등 해커들의 프롬프트 침투 기법이 더욱 고도화됨에 따라 단순 모델 자체의 방어 훈련 외에도 격리된 가상 머신(샌드박스) 환경에서의 에이전트 실행이 필수가 되고 있음.
  • 단순한 텍스트 답변 수준을 다투던 인공지능 성능 경쟁이 장시간 동안 일련의 목표를 완수하고 스스로 도구를 다루는 실질적인 행위력 싸움으로 급격히 전환되는 양상이 목격됨.

트렌드 키워드

  • 컴퓨터 사용 (Computer Use):

    인공지능 에이전트가 화면을 직접 시각적으로 분석하고 픽셀 좌표를 계산하여 클릭, 타이핑, 스크롤 등을 수행하며 인간처럼 소프트웨어를 제어하는 기술

    1 / 3
    컴퓨터 사용 기능은 이제 제미나이 3.5 플래시에서 지원되는 내장 도구로, 개발자는 이를 통해 브라우저, 모바일, 데스크톱 환경을 가로지르며 보고 추론하고 행동하는 맞춤형 에이전트를 안정적으로 구축할 수 있습니다.
  • 프롬프트 인젝션 (Prompt Injection):

    웹페이지나 문서 내에 보이지 않는 악의적 명령어를 삽입하여 인공지능 에이전트의 제어 권한을 가로채거나 비정상적인 행위를 강제하는 대표적인 보안 취약점 공격

    1 / 8
    컴퓨터 사용은 독특한 보안 및 운영 위험을 수반하며, 사용자를 대신해 행동하는 모델이 화면에서 신뢰할 수 없는 콘텐츠를 접하거나 작업 실행 과정에서 실수를 저지를 수 있습니다.프롬프트 인젝션
  • 다층 방어 (Defense-in-depth):

    단일 방어 수단의 실패에 대비하여 시스템 도처에 독립적인 다중 보안 제어 메커니즘을 겹겹이 배치해 시스템 전체의 안전을 보장하는 보안 설계 방법론

    우리는 개발자들이 이러한 안전 기능을 안전한 샌드박싱, 인간 참여형 검증, 엄격한 권한 제어와 결합하는 다층 방어 접근 방식을 취할 것을 권장합니다.
  • 인간 참여형 (Human-in-the-Loop):

    완전 자동화의 위험을 방지하기 위해 금융 결제나 개인정보 유출 등 민감한 의사결정 단계에 인간의 최종 승인 절차를 강제로 개입시키는 안전 관리 설계

    민감하거나 되돌릴 수 없는 작업을 실행하기 전에는 사용자의 명시적인 승인을 반드시 거치도록 해야 합니다.인간 참여형
  • 화면 레이아웃 이탈 (UI Drift):

    웹페이지 내 동적 광고 삽입이나 반응형 웹 구성의 변화로 인해 화면의 요소들이 불규칙하게 움직여 인공지능이 사전에 계산한 좌표 값이 일치하지 않게 되는 오작동 메커니즘

    가장 자주 발생하는 실패 유형은 화면 레이아웃 이탈이며, 페이지의 시각적 배치가 바뀌면서 모델이 예측한 픽셀 좌표가 일치하지 않게 되어 에이전트 동작이 차단되는 한계가 존재합니다.