HyperAIHyperAI

Command Palette

Search for a command to run...

WebLINX: 実世界のウェブサイトナビゲーションにおけるマルチターン対話

Xing Han Lù∗12 Zdeněk Kasner∗13 Siva Reddy124

概要

私たちは対話型ウェブナビゲーションの問題を提案します。この問題では、デジタルエージェントがウェブブラウザを制御し、ユーザーの指示に従ってマルチターンの対話形式で実世界のタスクを解決します。この問題を支援するために、対話型ウェブナビゲーションの専門家による2300件のデモンストレーションを含む10万件の相互作用からなる大規模ベンチマーク「WEBLINX」を導入しました。当社のベンチマークは150以上の実世界ウェブサイトで広範なパターンをカバーしており、多様なシナリオでのエージェントの訓練と評価に使用できます。情報量が膨大であるため、大規模言語モデル(LLMs)はリアルタイムで全体的なウェブページを処理できません。このボトルネックを解消するため、関連要素をランキングすることでHTMLページを効率的に剪定する検索に着想を得たモデルを設計しました。選択された要素とスクリーンショット、アクション履歴を使用して、さまざまなモデルがウェブナビゲーションにおいて人間の行動を再現する能力を評価しました。私たちの実験はテキストのみの小さなモデルから独自開発されたマルチモーダルLLMまで及んでいます。結果として、小さな微調整済みデコーダーが最良の一発学習LLM(GPT-4Vなども含む)を超えることがわかりましたが、スクリーンショットで事前学習された大きな微調整済みマルチモーダルモデルも同様でした。しかし、すべての微調整済みモデルは未見のウェブサイトへの汎化能力に苦戦しています。これらの知見は、新しい設定にも汎化できる大規模マルチモーダルモデルが必要であることを示しています。研究のためにコード、データおよびモデルが利用可能です:https://mcgill-nlp.github.io/weblinx


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています