연세대, 웹 브라우저 AI 에이전트 성능 개선하는 보상 모델 ‘웹-셰퍼드’ 소개
사용자가 요청한 웹 서핑이나 쇼핑 결제와 같은 복잡한 임무를 AI가 대신 수행할 때, 각 단계의 판단이 정확한지 실시간으로 가이드라인을 제시하는 혁신적인 보상 모델인 ‘웹-셰퍼드’가 연세대와 CMU 연구진에 의해 공개되었습니다.
현재 앤트로픽이나 오픈AI 같은 글로벌 빅테크들이 앞다투어 웹 에이전트를 내놓고 있지만, 실제 웹의 동적인 변화와 클릭 및 스크롤 같은 세밀한 동작들을 완벽하게 제어하고 평가하는 기술은 여전히 고도화가 필요한 영역입니다.
기존에는 AI의 동작이 맞았는지 틀렸는지 결과만 보고 판단하는 방식이 주를 이루었으나, 이번 연구팀은 최초로 웹 탐색의 모든 과정을 세분화하여 각 단계마다 점수를 매기는 ‘과정 보상 모델(PRM)’ 방식을 도입해 정확도를 높였습니다.
웹-셰퍼드는 특정 상품을 검색하거나 상세 페이지를 클릭하는 등 개별적인 하위 목표들을 체크리스트 형태로 관리하며, 에이전트가 중간에 경로를 이탈하지 않고 목적지에 도달할 수 있도록 정밀하게 피드백을 제공합니다.
성능 평가 결과에 따르면 기존의 표준적인 평가 방식인 GPT-4o-미니와 비교했을 때 경로 정확도 면에서 압도적인 수치를 기록하며, AI가 웹상에서 길을 잃지 않고 업무를 완수하는 능력이 비약적으로 상승했음을 증명했습니다.
특히 주목할 만한 성과는 이러한 고성능을 유지하면서도 실제 운영에 들어가는 비용을 기존 대비 10분의 1 수준으로 대폭 절감하여, 향후 기업용 AI 에이전트 서비스의 상용화 가능성을 크게 열어두었다는 점입니다.
연구진은 4만 개의 실제 작업 데이터를 포함한 ‘웹PRM 컬렉션’과 이를 검증할 수 있는 벤치마크 툴을 함께 구축하여, 향후 웹 에이전트가 멀티모달 정보를 처리할 때 발생할 수 있는 오류를 최소화할 수 있는 기반을 마련했습니다.
현재 이 모델의 가중치와 관련 코드는 허깅페이스 등 공용 플랫폼에 공개되어 있으며, 이는 전 세계 개발자들이 더욱 정교한 자율형 웹 에이전트를 개발하는 데 중요한 참고 자료가 될 것으로 기대됩니다.
이처럼 AI가 웹 브라우저를 직접 다루는 기술의 진보는 우리가 인터넷 서비스를 이용하는 방식에 근본적인 변화를 가져올 것이며, 단순 반복적인 웹 업무를 AI가 완벽히 전담하는 시대를 앞당길 핵심 동력이 될 것입니다.
출처 : AI타임스(https://www.aitimes.com/news/articleView.html?idxno=170990)