HyperAIHyperAI

Command Palette

Search for a command to run...

OmniParser for Pure Vision Based GUI Agent オムニパーザーによる純粋な視覚ベースのGUIエージェント

Yadong Lu Jianwei Yang Yelong Shen Ahmed Awadallah

概要

大規模なビジョン言語モデルの最近の成功は、ユーザインターフェース上で動作するエージェントシステムを推進する大きな可能性を示しています。しかし、私たちはマルチモーダルモデルであるGPT-4Vが異なるアプリケーションにまたがる複数のオペレーティングシステム上で一般的なエージェントとして機能する力が、堅牢なスクリーン解析技術の欠如により大きく見落とされていると主張します。この技術は以下の能力を持つ必要があります:1) ユーザインターフェース内の操作可能なアイコンを信頼性高く識別し、2) スクリーンショット内の様々な要素の意味を理解し、意図したアクションを画面の対応する領域に正確に関連付ける。これらのギャップを埋めるために、私たちはOmniParserという包括的な方法を導入します。これは、ユーザインターフェースのスクリーンショットを構造化された要素に解析することで、GPT-4Vがインターフェースの対応する領域に正確に根ざしたアクションを生成する能力を大幅に向上させます。まず、人気のあるウェブページを使用して操作可能なアイコン検出データセットとアイコン説明データセットを作成しました。これらのデータセットは、専門的なモデルの微調整に利用されました:スクリーン上の操作可能な領域を解析する検出モデルと、検出された要素の機能的意味を抽出するキャプションモデルです。OmniParserはScreenSpotベンチマークでのGPT-4Vの性能を大幅に改善しました。また、Mind2WebおよびAITWベンチマークにおいて、スクリーンショットのみを使用したOmniParserは、スクリーンショット以外の追加情報が必要なGPT-4Vベースラインよりも優れた性能を発揮しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
OmniParser for Pure Vision Based GUI Agent オムニパーザーによる純粋な視覚ベースのGUIエージェント | 記事 | HyperAI超神経