WebClick ウェブページ理解ベンチマークデータセット
WebClick は、マルチモーダル モデルとエージェントが Web インターフェースを理解し、ユーザー コマンドを解釈し、デジタル環境で正確なアクションを実行する能力を評価するための、高品質の Web 理解ベンチマーク データセットです。
このデータセットには、100 を超える Web サイトの 1,639 枚の英語の Web ページ スクリーンショットが含まれており、正確に注釈が付けられた自然言語の指示とピクセルレベルのクリック ターゲットが添付されています。
データセットの構造:
- agentbrowse(36%): WebVoyagerのWeb検索タスクを解決する際にSurferHエージェントが遭遇したページ
- humanbrowse (31.8%): 人間が日常的なタスク(電子ショッピング、旅行計画、個人の整理)を実行する際に操作するページと要素
- カレンダー(32.2%):UI理解モデルにとっての既知の課題であるカレンダーインターフェースの特殊なサブセットに焦点を当てています。
WebClick.torrent
シーディング 1ダウンロード中 0ダウンロード完了 1総ダウンロード数 2