HyperAIHyperAI
vor 2 Monaten

WebLINX: Realwelt-Navigation auf Websites mit mehrfacher Dialogrunde

Xing Han Lù; Zdeněk Kasner; Siva Reddy
WebLINX: Realwelt-Navigation auf Websites mit mehrfacher Dialogrunde
Abstract

Wir stellen das Problem der konversationsbasierten Webnavigation vor, bei dem ein digitales Agenten einen Webbrowser steuert und den Benutzeranweisungen folgt, um reale Aufgaben in einem mehrfach vermittelten Dialog zu lösen. Um dieses Problem zu unterstützen, führen wir WEBLINX ein – eine groß angelegte Benchmark-Datenbank mit 100.000 Interaktionen über 2.300 Expertendemonstrationen konversationsbasierter Webnavigation. Unsere Benchmark umfasst eine breite Palette von Mustern auf über 150 realen Websites und kann verwendet werden, um Agenten in verschiedenen Szenarien zu trainieren und zu evaluieren. Aufgrund des Umfangs der vorhandenen Informationen können große Sprachmodelle (LLMs) nicht die gesamten Webseiten in Echtzeit verarbeiten. Um diese Engpasse zu lösen, entwickeln wir ein auf Retrieval basierendes Modell, das HTML-Seiten durch Rangfolge relevanter Elemente effizient reduziert. Wir verwenden die ausgewählten Elemente zusammen mit Screenshots und Aktionsverlauf, um verschiedene Modelle hinsichtlich ihrer Fähigkeit zu bewerten, menschliches Verhalten bei der Webnavigation nachzubilden. Unsere Experimente reichen von kleinen textbasierten bis hin zu proprietären multimodalen LLMs. Wir stellen fest, dass kleinere feinjustierte Decodierer die besten zero-shot LLMs (einschließlich GPT-4V) übertreffen, aber auch größere feinjustierte multimodale Modelle, die explizit auf Screenshots vortrainiert wurden. Dennoch ringen alle feinjustierten Modelle damit, sich auf unbekannte Websites zu generalisieren. Unsere Ergebnisse unterstreichen die Notwendigkeit großer multimodaler Modelle, die sich auf neue Situationen anpassen können. Unser Code, unsere Daten und unsere Modelle sind für Forschungszwecke verfügbar: https://mcgill-nlp.github.io/weblinx

WebLINX: Realwelt-Navigation auf Websites mit mehrfacher Dialogrunde | Neueste Forschungsarbeiten | HyperAI