HyperAIHyperAI

Command Palette

Search for a command to run...

SeeClick: GUI グラウンディングを活用した高度な視覚的な GUI エージェントの開発

Kanzhi Cheng Qiushi Sun Yougang Chu Fangzhi Xu Yantao Li Jianbing Zhang Zhiyong Wu

概要

グラフィカル・ユーザー・インターフェース(GUI)エージェントは、スマートフォンやデスクトップなどのデジタル機器上で複雑なタスクを自動化するために設計されています。既存の大多数のGUIエージェントは、環境との相互作用に抽出された構造化データ(例:HTML)を使用しており、これがしばしば長大で(例:HTML)、ときにはアクセス不能な場合もあります(例:デスクトップ)。この問題を解決するため、当研究では新しい視覚的なGUIエージェント「SeeClick」を提案します。これは、スクリーンショットのみを使用してタスクを自動化します。我々の初期研究において、視覚的なGUIエージェントを開発する際の主要な課題が明らかになりました。それは、GUIグランドイング——指示に基づいて画面要素を正確に位置特定する能力です。この課題に対処するために、SeeClickのGUIグランドイング事前学習の強化と、GUIグランドイングデータのキュレーションを自動化する方法の開発を提案します。さらに、モバイル、デスクトップ、ウェブ環境を網羅した最初の現実的なGUIグランドイングベンチマーク「ScreenSpot」を作成しました。事前学習後、SeeClickはScreenSpotにおいて様々なベースラインに対して大幅な改善を示しています。また、広く使用されている3つのベンチマークでの包括的な評価により、GUIグランドイングの進歩が下流のGUIエージェントタスクにおける性能向上と直接相関しているという我々の見解が一貫して支持されています。モデル、データおよびコードは https://github.com/njucckevin/SeeClick で公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています