HyperAIHyperAI

Command Palette

Search for a command to run...

WebLINX : Navigation sur des sites web réels avec dialogue à plusieurs tours

Xing Han Lù∗12 Zdeněk Kasner∗13 Siva Reddy124

Résumé

Nous proposons le problème de la navigation conversationnelle sur le web, où un agent numérique contrôle un navigateur web et suit les instructions de l'utilisateur pour résoudre des tâches du monde réel dans un dialogue à plusieurs tours. Pour soutenir ce problème, nous introduisons WEBLINX - une grande base de référence comprenant 100 000 interactions issues de 2 300 démonstrations d'experts en navigation conversationnelle sur le web. Notre base de référence couvre une large gamme de modèles sur plus de 150 sites web du monde réel et peut être utilisée pour former et évaluer des agents dans divers scénarios. En raison de la quantité d'informations présente, les grands modèles linguistiques (LLMs) ne peuvent pas traiter des pages web entières en temps réel. Pour résoudre cette difficulté, nous concevons un modèle inspiré par la recherche qui trie efficacement les pages HTML en classant les éléments pertinents. Nous utilisons les éléments sélectionnés, ainsi que des captures d'écran et l'historique des actions, pour évaluer divers modèles quant à leur capacité à reproduire le comportement humain lors de la navigation sur le web. Nos expérimentations s'étendent des petits modèles textuels uniquement aux grands modèles multimodaux propriétaires (LLMs). Nous constatons que les petits décodeurs affinés surpassent les meilleurs modèles LLMs utilisés sans entraînement préalable (y compris GPT-4V), ainsi que les grands modèles multimodaux affinés qui ont été explicitement pré-entraînés sur des captures d'écran. Cependant, tous les modèles affinés peinent à généraliser à des sites web inconnus. Nos résultats soulignent la nécessité de disposer de grands modèles multimodaux capables de généraliser à des configurations nouvelles. Notre code, nos données et nos modèles sont disponibles pour la recherche : https://mcgill-nlp.github.io/weblinx


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
WebLINX : Navigation sur des sites web réels avec dialogue à plusieurs tours | Articles | HyperAI