
私たちは対話型ウェブナビゲーションの問題を提案します。この問題では、デジタルエージェントがウェブブラウザを制御し、ユーザーの指示に従ってマルチターンの対話形式で実世界のタスクを解決します。この問題を支援するために、対話型ウェブナビゲーションの専門家による2300件のデモンストレーションを含む10万件の相互作用からなる大規模ベンチマーク「WEBLINX」を導入しました。当社のベンチマークは150以上の実世界ウェブサイトで広範なパターンをカバーしており、多様なシナリオでのエージェントの訓練と評価に使用できます。情報量が膨大であるため、大規模言語モデル(LLMs)はリアルタイムで全体的なウェブページを処理できません。このボトルネックを解消するため、関連要素をランキングすることでHTMLページを効率的に剪定する検索に着想を得たモデルを設計しました。選択された要素とスクリーンショット、アクション履歴を使用して、さまざまなモデルがウェブナビゲーションにおいて人間の行動を再現する能力を評価しました。私たちの実験はテキストのみの小さなモデルから独自開発されたマルチモーダルLLMまで及んでいます。結果として、小さな微調整済みデコーダーが最良の一発学習LLM(GPT-4Vなども含む)を超えることがわかりましたが、スクリーンショットで事前学習された大きな微調整済みマルチモーダルモデルも同様でした。しかし、すべての微調整済みモデルは未見のウェブサイトへの汎化能力に苦戦しています。これらの知見は、新しい設定にも汎化できる大規模マルチモーダルモデルが必要であることを示しています。研究のためにコード、データおよびモデルが利用可能です:https://mcgill-nlp.github.io/weblinx