구글, 새 AI 모델로 웹 브라우저를 인간처럼 활용
구글이 새로운 AI 모델 ‘Gemini 2.5 Computer Use’를 공개하며, 웹 브라우저 내에서 사람처럼 인터페이스를 조작하는 능력을 갖춘 AI 에이전트 기능을 선보였다. 이 모델은 시각 인식과 추론 능력을 바탕으로 웹 페이지를 분석하고, 폼 작성, 버튼 클릭, 드래그 앤 드롭 등 13가지 작업을 수행할 수 있다. 특히 API가 없는 웹사이트나 모바일 앱에서도 직접 조작이 가능해 UI 테스트나 자동화된 업무 처리에 활용될 수 있다. 구글은 이 모델이 여러 웹 및 모바일 벤치마크에서 기존 대안보다 뛰어난 성능을 보이며 지연 시간도 낮다고 강조했다. 현재 이 기능은 Google AI Studio와 Vertex AI를 통해 개발자에게 제공되며, Browserbase에서 실시간 데모도 확인할 수 있다. 예를 들어, ‘2048 게임 플레이’나 ‘허커 뉴스에서 인기 토론 탐색’ 같은 작업을 자동으로 수행한다. 다만, 모델은 데스크톱 운영체제 수준의 제어는 지원하지 않으며, 브라우저 환경 내에서만 작동한다. 구글은 AI 에이전트의 잠재적 위험을 고려해 안전성 기능을 모델 자체에 통합했으며, 개발자들이 고위험 작업(예: 보안 우회, CAPTCHA 회피)을 차단할 수 있는 제어 기능도 제공한다. 이는 AI가 의도치 않은 행동을 하거나 악성 공격에 악용되는 것을 막기 위한 조치다. 구글은 안전한 개발을 위해 문서를 통해 추가 가이드라인도 제시했다. 이번 발표는 OpenAI가 ChatGPT 에이전트 기능을 강화한 데 이어, AI가 실제 디지털 환경에서 인간처럼 행동하는 데 대한 경쟁이 가속화되고 있음을 보여준다. Anthropic도 이미 유사한 기능을 출시한 바 있으나, 구글은 시각 기반의 정교한 인터페이스 조작과 안전성 강화에 초점을 맞췄다. 이는 AI가 단순한 정보 제공을 넘어 실제 작업을 대신 수행하는 ‘실질적 에이전트’로 진화하고 있음을 의미한다.