WebLINX : Navigation sur des sites web réels avec dialogue à plusieurs tours

Nous proposons le problème de la navigation conversationnelle sur le web, où un agent numérique contrôle un navigateur web et suit les instructions de l'utilisateur pour résoudre des tâches du monde réel dans un dialogue à plusieurs tours. Pour soutenir ce problème, nous introduisons WEBLINX - une grande base de référence comprenant 100 000 interactions issues de 2 300 démonstrations d'experts en navigation conversationnelle sur le web. Notre base de référence couvre une large gamme de modèles sur plus de 150 sites web du monde réel et peut être utilisée pour former et évaluer des agents dans divers scénarios. En raison de la quantité d'informations présente, les grands modèles linguistiques (LLMs) ne peuvent pas traiter des pages web entières en temps réel. Pour résoudre cette difficulté, nous concevons un modèle inspiré par la recherche qui trie efficacement les pages HTML en classant les éléments pertinents. Nous utilisons les éléments sélectionnés, ainsi que des captures d'écran et l'historique des actions, pour évaluer divers modèles quant à leur capacité à reproduire le comportement humain lors de la navigation sur le web. Nos expérimentations s'étendent des petits modèles textuels uniquement aux grands modèles multimodaux propriétaires (LLMs). Nous constatons que les petits décodeurs affinés surpassent les meilleurs modèles LLMs utilisés sans entraînement préalable (y compris GPT-4V), ainsi que les grands modèles multimodaux affinés qui ont été explicitement pré-entraînés sur des captures d'écran. Cependant, tous les modèles affinés peinent à généraliser à des sites web inconnus. Nos résultats soulignent la nécessité de disposer de grands modèles multimodaux capables de généraliser à des configurations nouvelles. Notre code, nos données et nos modèles sont disponibles pour la recherche : https://mcgill-nlp.github.io/weblinx