제미나이 3.5 플래시에 '컴퓨터 유즈' 내장…화면 조작·검색·지도 한 번에

(zdnet.co.kr)

구글이 제미나이 3.5 플래시에 화면 조작 기능인 '컴퓨터 유즈'를 내장하며 고성능 AI 에이전트를 저렴한 비용으로 제공하기 시작해, 개발자 생태계와 업무 자동화 시장의 판도를 바꿀 것으로 전망됩니다.

이 글의 핵심 포인트

1제미나이 3.5 플래시에 화면 조작 기능인 '컴퓨터 유즈'를 네이티브 도구로 통합
2기존 별도 모델 사용 방식에서 함수 호출, 검색, 지도 연동과 함께 단일 모델 내 통합으로 개발 복잡성 감소
3OSWorld-Verified 벤치마크에서 78.4점을 기록하며 GPT-5.5(78.7점)와 대등한 성능 입증
4100만 토큰당 입력 비용이 GPT-5.5의 약 3분의 1 수준인 1.5달러로 매우 경제적임
5웹 양식 작성, 사내 시스템 운영 등 반복 업무 자동화 에이전트 개발을 위한 기반 마련

이 글에 대한 공공지능 분석

왜 중요한가?

고성능 AI 에이전트 구현 비용을 획기적으로 낮추면서도 기존 최상위 모델에 근접한 정확도를 확보했다는 점이 핵심입니다. 이는 단순 챗봇을 넘어 실제 소프트웨어를 조작하는 '액션형 AI'의 대중화를 가속화할 것입니다.

어떤 배경과 맥락이 있나?

오픈AI와 앤트로픽이 에이전트 기술 경쟁을 벌이는 가운데, 구글은 성능 차이를 최소화하면서도 압도적인 가격 경쟁력을 앞세워 개발자 생태계를 선점하려는 전략을 취하고 있습니다.

업계에 어떤 영향을 주나?

웹 양식 작성이나 사내 시스템 운영 등 반복적 업무를 자동화하는 에이전트 기반 스타트업들에게 강력한 인프라가 제공됩니다. 특히 비용 효율적인 모델의 등장은 AI 서비스의 수익성(Unit Economics) 개선에 결정적인 기여를 할 것입니다.

한국 시장에 어떤 시사점이 있나?

국내 기업들의 업무 자동화(RPA) 수요와 맞물려, 저비용 고효율 에이전트를 활용한 B2B 솔루션 개발 기회가 확대될 것이며, 동시에 AI의 자율 조작에 따른 보안 및 권한 제어 기술의 중요성도 함께 커질 전망입니다.

이 글에 대한 큐레이터 의견

구글의 이번 발표는 'AI 에이전트의 경제성'이라는 핵심 난제를 정면으로 돌파하려는 시도로 보입니다. 기존에는 고성능 모델을 사용해야만 가능한 복잡한 화면 조작 업무를, 훨씬 저렴한 플래시 모델로 구현함으로써 스타트업들이 서비스 규모를 확장(Scaling)할 때 직면하는 비용 부담을 획기적으로 줄여줄 수 있습니다. 이는 에이전트 기반의 새로운 버티컬 SaaS 시장이 열릴 수 있는 강력한 신호입니다.

다만, '저비용 고성능'이라는 매력 뒤에는 자율적 조작에 따른 보안 리스크라는 명확한 트레이드오프가 존재합니다. AI가 사용자의 권한을 위임받아 시스템을 직접 조작할 때 발생할 수 있는 오작동이나 데이터 유출 문제는 기업 도입의 가장 큰 걸림돌이 될 수 있습니다. 따라서 창업자들은 단순히 기능을 구현하는 것을 넘어, 에이전트의 행동을 검증하고 제어할 수 있는 '가드레일(Guardrails)' 기술을 서비스의 핵심 경쟁력으로 포함시켜야 합니다.

원문 보기 →