2ヶ月前

パノプティックシーングラフの生成

Jingkang Yang; Yi Zhe Ang; Zujin Guo; Kaiyang Zhou; Wayne Zhang; Ziwei Liu
パノプティックシーングラフの生成
要約

既存の研究では、画像におけるシーン理解の重要な技術であるシーングラフ生成(Scene Graph Generation: SGG)が検出の観点から取り扱われています。つまり、オブジェクトはバウンディングボックスを使用して検出され、その後、それらのペアワイズな関係を予測します。しかし、我々はこのようなパラダイムが分野の進歩を阻害するいくつかの問題を引き起こすと主張しています。例えば、現在のデータセットに含まれるバウンディングボックスベースのラベルには通常、髪などの冗長なクラスが含まれており、コンテキスト理解にとって重要な背景情報が欠落していることが多いです。本研究では、パノーラミックセグメンテーションに基づくより包括的なシーングラフ表現を生成することを要求する新しい問題タスクであるパノーラミックシーングラフ生成(Panoptic Scene Graph Generation: PSG)を導入します。コミュニティがその進捗を追跡できるように、COCOとVisual Genomeから4万9千枚のよく注釈された重複画像を含む高品質なPSGデータセットを作成しました。ベンチマークのために、従来のSGG手法から改変した4つの2段階ベースラインと、効率的なTransformerベースの検出器(DETR)に基づく2つの1段階ベースラインであるPSGTRとPSGFormerを構築しました。PSGTRはクエリの一連を使用して直接トリプレットを学習しますが、PSGFormerは2つのTransformerデコーダーからのクエリ形式でオブジェクトと関係を別々にモデル化し、その後、プロンプトのような関係-オブジェクトマッチングメカニズムを行います。最後に、オープンチャレンジや将来の方向性に関する洞察を共有します。

パノプティックシーングラフの生成 | 最新論文 | HyperAI超神経