월 200달러 AI 브라우저가 공짜? 퍼플렉시티 Comet 전면 무료화 선언
글로벌 기술 선도 기업인 구글이 자사의 최신 인공지능 모델인 제미나이 3 플래시(Gemini 3 Flash)에 화면 속 정보를 실시간으로 파악하고 직접 조작까지 수행하는 ‘에이전트 비전(Agent Vision)’ 기능을 도입하며 에이전틱 AI의 정점을 선보였습니다.
이번에 공개된 에이전트 비전은 단순히 텍스트나 이미지를 분석하는 기존 수준을 훨씬 뛰어넘어, AI가 사용자의 컴퓨터 화면이나 모바일 디스플레이에 표시된 UI 요소들을 인간처럼 시각적으로 인지하고 상호작용할 수 있도록 설계되었습니다.
가장 혁신적인 변화는 AI가 화면상의 버튼, 입력 창, 메뉴 구성 등을 정확히 식별하여 사용자의 복잡한 요구사항에 따라 웹사이트 예약이나 문서 작성, 데이터 입력과 같은 다단계 워크플로를 스스로 완수할 수 있다는 점입니다.
특히 제미나이 3 플래시 모델 특유의 빠른 처리 속도와 효율성을 바탕으로 구현된 이 기능은 지연 시간을 최소화하여 사용자가 실시간으로 AI의 작업 과정을 지켜보고 제어할 수 있는 쾌적한 에이전트 환경을 제공합니다.
구글은 이 기술이 단순히 편의성을 높이는 것을 넘어 신체적 제약으로 인해 정교한 기기 조작에 어려움을 겪는 사용자들에게 새로운 디지털 접근성을 제공하고, 전문직 종사자들의 반복적인 관리 업무를 자동화하는 데 핵심적인 역할을 할 것으로 기대하고 있습니다.
또한 에이전트 비전은 보안 측면에서도 사용자의 명시적인 허가 없이는 민감한 화면 정보에 접근하지 않도록 설계되었으며, 모든 자동화 작업 단계마다 투명한 피드백을 제공하여 사용자가 AI의 행동을 상시 모니터링할 수 있는 안전장치를 마련했습니다.
이러한 ‘보고 행동하는 AI’의 등장은 우리가 소프트웨어를 다루는 근본적인 방식을 마우스 클릭과 키보드 입력 중심에서 AI와의 직관적인 협업 중심으로 전환하는 중요한 기술적 변곡점이 될 전망입니다.
현재 구글은 이 기능을 구글 워크스페이스와 크롬 브라우저 등 자사의 주요 서비스에 단계적으로 통합하고 있으며, 향후 타사 애플리케이션과의 연동을 통해 더욱 확장된 인공지능 에코시스템을 구축할 계획입니다.
결국 제미나이 3 플래시의 이번 업데이트는 AI가 단순한 질문 응답기를 넘어 인간의 디지털 활동을 직접 보조하고 실행하는 강력한 ‘실행형 동반자’로 자리매김했음을 의미하며 산업 전반에 걸친 생산성 혁신을 예고하고 있습니다.
출처 : 아웃소싱타임스(https://www.outsourcing.co.kr/news/articleView.html?idxno=200949)