제미니 옴니와 제미니 3.5 활용 시연 9가지

(blog.google)

Google AI Blog2026년 5월 29일AI 모델

구글이 자연어 대화로 영상의 물리적 일관성을 유지하며 편집할 수 있는 Gemini Omni와 복잡한 업무를 자율적으로 수행하는 Gemini 3.5를 공개하며, 멀티모달 생성과 에이전틱 AI 시대의 본격적인 개막을 선언했습니다.

이 글의 핵심 포인트

1Gemini Omni: 자연어 대화를 통해 영상의 캐릭터와 물리적 일관성을 유지하며 편집 가능한 모델
2Gemini 3.5 Flash: 복잡한 장기 작업(Long-horizon tasks) 및 에이전트 워크플로우에 최적화된 모델
3Antigravity 기술: 다단계 워크플로우 자동화 및 협업 서브에이전트 실행을 지원하는 엔진
4에이전틱 코딩: 60초 내에 웹 UI 및 그래픽을 생성할 수 있는 고도화된 인터페이스 생성 능력
5정보 에이전트: 사용자를 위해 24/7 실시간 정보를 추적하고 업데이트하는 검색 기능 강화

이 글에 대한 공공지능 분석

왜 중요한가?

단순한 텍스트 응답을 넘어 영상의 물리적 법칙을 이해하는 '생성' 기술과, 스스로 판단하고 행동하는 '에이전틱(Agentic)' 모델의 등장은 AI의 역할을 단순 도구에서 자율적 수행자로 격상시킵니다.

어떤 배경과 맥락이 있나?

기존 AI가 단발성 프롬프트에 의존했다면, 이번 발표는 멀티모달 입력의 통합과 장기적 작업 수행(Long-horizon tasks)이 가능한 에이전트 생태계 구축을 목표로 하며, 이는 AI 모델의 한계를 '추론'에서 '실행'으로 확장하는 과정입니다.

업계에 어떤 영향을 주나?

영상 제작 프로세스의 근본적인 재편이 예상되며, 특히 코딩, 데이터 관리, UI 생성 등 복잡한 워크플로우를 자동화하는 에이전트 기반 스타트업들에게 강력한 인프라적 기회가 될 것입니다.

한국 시장에 어떤 시사점이 있나?

K-콘텐츠(영상, 웹툰) 산업의 제작 효율성을 극대화할 수 있는 기술적 토대가 마련되었으며, 국내 개발자들은 Gemini 3.5의 에이전틱 기능을 활용해 특정 산업의 워크플로우를 자동화하는 버티컬 AI 서비스를 빠르게 선점해야 합니다.

이 글에 대한 큐레이터 의견

이번 발표의 핵심은 '생성(Generation)'에서 '실행(Execution)'으로의 패러다임 전환입니다. Gemini Omni가 보여준 대화형 영상 편집은 크리에이티브 디렉터의 역할을 AI가 보조하거나 대체할 수 있음을 시사하며, 이는 기존 영상 편집 소프트웨어 및 에셋 제작 스타트업들에게는 강력한 위협인 동시에 새로운 편집 도구 및 워크플로우를 설계할 수 있는 거대한 기회를 제공합니다.

또한, Gemini 3.5 Flash의 에이전틱 기능은 사용자의 의도를 파악해 백그라운드에서 작업을 완수하는 '자율형 서비스'의 시대를 예고합니다. 창업자들은 이제 단순히 '답변을 주는 AI'가 아니라, '업무를 끝내주는 AI'를 어떻게 설계할 것인지 고민해야 합니다. Antigravity와 같은 프레임워크를 활용해 특정 산업군(Vertical)의 복잡한 워크플로우를 자동화하는 에이전트 기반 비즈니스 모델 선점이 향후 AI 시장의 승부처가 될 것입니다.

원문 보기 →