Command Palette
Search for a command to run...

초록
시각-언어 모델(Vision-Language Models, VLMs)을 기반으로 한 컴퓨터 사용 에이전트는 모바일 플랫폼과 같은 디지털 환경에서 인간과 유사한 능력을 보여주고 있다. 이러한 에이전트는 디지털 자동화의 발전에 큰 잠재력을 지니고 있으나, 시스템 침해나 개인정보 유출과 같은 위험한 운영 가능성을 내포하고 있어 심각한 우려를 낳고 있다. 모바일 환경의 광범위하고 복잡한 운영 공간 전반에서 이러한 안전성 문제를 탐지하는 것은 여전히 심각하게 미비한 분야이며, 막대한 도전 과제로 남아 있다. 모바일 에이전트의 안전성 연구를 위한 기반을 마련하기 위해, 우리는 현실적인 동작 경로와 세부 레이블이 부여된, 동적 사전 환경(dynamic sandbox environment)과 함께 사용할 수 있는 안전성 탐지 벤치마크인 MobileRisk-Live를 제안한다. 이를 기반으로, 시스템 수준의 명시적 위반을 탐지하기 위한 형식적 검증기(Formal Verifier)와 VLM 기반의 맥락적 판단기(Contextual Judge)를 융합한 혁신적인 하이브리드 안전성 탐지 프레임워크 OS-Sentinel을 제안한다. 실험 결과, OS-Sentinel은 여러 지표에서 기존 방법 대비 10~30%의 성능 향상을 달성하였다. 추가적인 분석을 통해 더 안전하고 신뢰성 높은 자율 모바일 에이전트 개발을 위한 핵심 통찰을 도출할 수 있었다.