HyperAIHyperAI

Command Palette

Search for a command to run...

VenusBench-GD クロスプラットフォームインターフェースデータセットの理解

Discordで議論

日付

1ヶ月前

データセット構成

アイミーンAI
アリグループ

Paper URL

2512.16501

ライセンス

MIT

VenusBench-GDは、グラフィカルユーザーインターフェース(GUI)要素の位置特定と理解のためのデータセットで、Ant GroupがiMean AIと共同で2025年にリリースしました。関連研究論文には以下が含まれます。 VenusBench-GD: 多様な接地タスクのための包括的なマルチプラットフォームGUIベンチマーク目的は、さまざまなプラットフォーム インターフェースにわたる自然言語の指示に基づいて、ターゲット インターフェース要素を正確に識別して特定するモデルの能力を評価することです。

このデータセットには、基本的なローカリゼーションと高度な推論という2つのタスクをカバーする、手動でラベル付けされた6,166個のサンプルが含まれています。各サンプルは、インターフェースのスクリーンショットと対応する自然言語コマンドで構成されています。データは、ウェブ、モバイル、デスクトッププラットフォームを網羅し、中国語と英語の両方のインターフェースを含む、97の異なるアプリケーションとウェブサイトから構築されています。基本タスクは、主にインターフェース要素の種類、テキストコンテンツ、空間関係、視覚的外観に関するモデルの理解を評価します。高度なタスクでは、推論、機能的理解、存在しないターゲットの合理的な拒否をさらに導入し、モデルのグローバルインターフェース理解とセマンティック推論機能に対する要求を高めます。このデータセットは、多段階の自動生成と手動レビュープロセスを通じて、スケールを維持しながら注釈のノイズと曖昧さを効果的に削減し、GUIエージェントとマルチモーダルモデルを評価するための信頼性の高いデータ基盤を提供します。

データセットの例

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています