HyperAIHyperAI

Command Palette

Search for a command to run...

OS-MAP : Jusqu'où peuvent aller les agents utilisant l'ordinateur en termes de largeur et de profondeur ?

Xuetian Chen Yinghao Chen Xinfeng Yuan Zhuo Peng Lu Chen Yuekeng Li et al

Résumé

Les agents utilisant des ordinateurs ont démontré un fort potentiel pour accroître la productivité humaine et permettre de nouvelles formes d'applications sur diverses plateformes. Bien que les progrès récents aient conduit à des applications fonctionnelles, les benchmarks existants ne prennent pas en compte l'hétérogénéité interne des tâches et les capacités correspondantes des agents, ainsi que leur alignement avec les besoins réels des utilisateurs, ce qui entrave à la fois le développement ciblé des capacités et la transition fiable des avancées de la recherche vers une mise en œuvre pratique. Pour combler cet écart, nous présentons OS-MAP, un benchmark pour l'automatisation quotidienne de l'utilisation des ordinateurs, qui organise ses 416 tâches réalistes au sein de 15 applications selon deux dimensions clés : une taxonomie à cinq niveaux d'automatisation et un périmètre de généralisation tiré d'une hiérarchie des besoins des utilisateurs dans le monde réel. Afin d'autoriser une analyse fine des capacités nécessaires et leur alignement avec les scénarios réels, OS-MAP évalue les agents selon deux dimensions : le niveau d'automatisation selon une taxonomie à cinq niveaux, et le périmètre de généralisation selon une hiérarchie des besoins. Cette conception capture différents niveaux d'autonomie et de généralisation requis par les agents, formant ainsi une matrice d'évaluation performance-généralisation pour une évaluation structurée et exhaustive. Les expériences montrent que même les agents de pointe basés sur des modèles multimodaux (VLM) éprouvent des difficultés avec les tâches de haut niveau impliquant la perception, le raisonnement et la coordination, soulignant ainsi la nécessité d'une compréhension plus approfondie des forces et des limites actuelles pour stimuler l'avancement futur de la recherche et de la mise en œuvre des agents utilisant des ordinateurs. Tous les codes, environnements, baselines et données sont disponibles publiquement à l'adresse URL suivante : https://...


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp