Gemini 3.5 Flash에 컴퓨터 사용 기능 도입

(deepmind.google)

구글 딥마인드가 Gemini 3.5 Flash에 '컴퓨터 사용(computer use)' 기능을 내장하여 개발자들이 브라우저와 데스크톱 환경을 넘나들며 스스로 판단하고 행동하는 고성능 AI 에이전트를 구축할 수 있는 새로운 길을 열었습니다.

이 글의 핵심 포인트

1Gemini 3.5 Flash에 컴퓨터 사용 기능이 기본 내장 도구로 탑재됨
2브라우저, 모바일, 데스크톱 환경 전반에서 상호작용 가능한 에이전트 구축 가능
3기존 별도 모델 방식에서 메인 Flash 모델로 통합되어 성능 및 효율성 개선
4프롬프트 인젝션 방지를 위한 적대적 학습 및 기업용 안전 장치(사용자 확인 등) 도입
5Gemini API 및 Gemini Enterprise Agent Platform을 통해 개발자 사용 가능

이 글에 대한 공공지능 분석

왜 중요한가?

AI가 단순히 텍스트를 생성하는 단계를 넘어, 실제 소프트웨어를 조작하고 실행하는 '액션(Action)'의 시대로 진입했음을 의미합니다. 특히 경량 모델인 Flash에 이 기능이 내장됨으로써 에이전트 개발의 비용 효율성과 성능을 동시에 잡았습니다.

어떤 배경과 맥락이 있나?

기존에는 컴퓨터 사용 기능을 위해 별도의 전용 모델을 사용해야 했으나, 이제 Gemini 3.5 Flash의 기본 기능으로 통합되었습니다. 이는 함수 호출(Function Calling) 및 검색/지도 연동 기능과 결합되어 더욱 정교한 멀티모달 에이전트 구현을 가능하게 합니다.

업계에 어떤 영향을 주나?

소프트웨어 테스트 자동화, 엔터프라이즈 워크플로우 자동화 등 기존 RPA(Robotic Process Automation) 시장을 AI 에이전트가 대체하거나 고도화할 것으로 보입니다. 개발자들은 이제 단순 챗봇이 아닌, 실제 업무 프로세스를 수행하는 '디지털 노동력'을 구축할 수 있게 되었습니다.

한국 시장에 어떤 시사점이 있나?

국내 SaaS 및 IT 서비스 기업들은 단순 인터페이스 제공을 넘어, AI가 직접 사용자의 업무 도구를 조작하는 '자율형 워크플로우' 솔루션 개발에 집중해야 합니다. 에이전트의 실행 권한과 보안을 관리하는 새로운 형태의 보안/인프라 서비스 수요도 발생할 것입니다.

이 글에 대한 큐레이터 의견

이번 업데이트는 AI 에이전트가 '보는 것(Seeing)'에서 '행동하는 것(Doing)'으로 진화하는 결정적인 변곡점입니다. 특히 Gemini 3.5 Flash라는 경량 모델에 이 기능이 내장되었다는 점은, 낮은 비용과 빠른 속도로 복잡한 업무를 수행하는 실용적인 에이전트 서비스의 폭발적 증가를 예고합니다. 스타트업 창업자들은 이제 단순 API 연동을 넘어, 특정 도메인의 워크플로우를 AI가 완벽히 수행하도록 설계하는 '에이전트 오케스트레이션' 역량에 집중해야 합니다.

다만, 컴퓨터 사용 기능의 확산은 보안 리스크라는 양날의 검을 동반합니다. AI 에이전트가 사용자의 권한을 가지고 실제 시스템을 조작할 때 발생할 수 있는 프롬프트 인젝션이나 예기치 못한 데이터 삭제 등의 위험은 기업 도입의 가장 큰 걸림돌이 될 것입니다. 따라서 개발자는 구글이 제공하는 안전 장치를 활용함과 동시에, 샌드박스 환경 구축 및 인간의 개입(Human-in-the-loop) 프로세스를 설계 단계부터 필수적으로 고려해야 하는 기술적 과제를 안게 되었습니다.

원문 보기 →