8ヶ月前

概要

大規模なビジョン言語モデルの最近の成功は、ユーザインターフェース上で動作するエージェントシステムを推進する大きな可能性を示しています。しかし、私たちはマルチモーダルモデルであるGPT-4Vが異なるアプリケーションにまたがる複数のオペレーティングシステム上で一般的なエージェントとして機能する力が、堅牢なスクリーン解析技術の欠如により大きく見落とされていると主張します。この技術は以下の能力を持つ必要があります：1) ユーザインターフェース内の操作可能なアイコンを信頼性高く識別し、2) スクリーンショット内の様々な要素の意味を理解し、意図したアクションを画面の対応する領域に正確に関連付ける。これらのギャップを埋めるために、私たちはOmniParserという包括的な方法を導入します。これは、ユーザインターフェースのスクリーンショットを構造化された要素に解析することで、GPT-4Vがインターフェースの対応する領域に正確に根ざしたアクションを生成する能力を大幅に向上させます。まず、人気のあるウェブページを使用して操作可能なアイコン検出データセットとアイコン説明データセットを作成しました。これらのデータセットは、専門的なモデルの微調整に利用されました：スクリーン上の操作可能な領域を解析する検出モデルと、検出された要素の機能的意味を抽出するキャプションモデルです。OmniParserはScreenSpotベンチマークでのGPT-4Vの性能を大幅に改善しました。また、Mind2WebおよびAITWベンチマークにおいて、スクリーンショットのみを使用したOmniParserは、スクリーンショット以外の追加情報が必要なGPT-4Vベースラインよりも優れた性能を発揮しています。

ソースPDF