OS-MAP : Jusqu'où peuvent aller les agents utilisant l'ordinateur en termes de largeur et de profondeur ?

Les agents utilisant des ordinateurs ont démontré un fort potentiel pour accroître la productivité humaine et permettre de nouvelles formes d'applications sur diverses plateformes. Bien que les progrès récents aient conduit à des applications fonctionnelles, les benchmarks existants ne prennent pas en compte l'hétérogénéité interne des tâches et les capacités correspondantes des agents, ainsi que leur alignement avec les besoins réels des utilisateurs, ce qui entrave à la fois le développement ciblé des capacités et la transition fiable des avancées de la recherche vers une mise en œuvre pratique. Pour combler cet écart, nous présentons OS-MAP, un benchmark pour l'automatisation quotidienne de l'utilisation des ordinateurs, qui organise ses 416 tâches réalistes au sein de 15 applications selon deux dimensions clés : une taxonomie à cinq niveaux d'automatisation et un périmètre de généralisation tiré d'une hiérarchie des besoins des utilisateurs dans le monde réel. Afin d'autoriser une analyse fine des capacités nécessaires et leur alignement avec les scénarios réels, OS-MAP évalue les agents selon deux dimensions : le niveau d'automatisation selon une taxonomie à cinq niveaux, et le périmètre de généralisation selon une hiérarchie des besoins. Cette conception capture différents niveaux d'autonomie et de généralisation requis par les agents, formant ainsi une matrice d'évaluation performance-généralisation pour une évaluation structurée et exhaustive. Les expériences montrent que même les agents de pointe basés sur des modèles multimodaux (VLM) éprouvent des difficultés avec les tâches de haut niveau impliquant la perception, le raisonnement et la coordination, soulignant ainsi la nécessité d'une compréhension plus approfondie des forces et des limites actuelles pour stimuler l'avancement futur de la recherche et de la mise en œuvre des agents utilisant des ordinateurs. Tous les codes, environnements, baselines et données sont disponibles publiquement à l'adresse URL suivante : https://...