2ヶ月前
パンオプティックシーングラフ生成における意味プロトタイプ学習
Li Li; Wei Ji; Yiming Wu; Mengze Li; You Qin; Lina Wei; Roger Zimmermann

要約
パノプティック・シーングラフ生成(PSG)は、物体を解析し、それらの関係(述語)を予測することで、人間の言語と視覚的なシーンを結びつける技術です。しかし、アノテーターの異なる言語的好みや述語間の意味的重複により、データセット内において同じ物体ペアに対して異なる述語が注釈されることがあり、これが偏った述語注釈につながります。偏った述語注釈は、PSGモデルが述語間で明確な決定平面を構築することを難しくし、その実際の応用に大きな支障をきたします。この内在的なバイアスに対処するため、我々は新しいフレームワークであるADTransを提案します。ADTransは、偏った述語注釈を適応的に情報豊かで統一されたものに変換することを目指しています。変換プロセス中の一貫性と正確性を保証するために、各述語クラスにおける表現の不変性を測定し、異なる強度を持つ無偏倚な述語のプロトタイプを学習します。同時に、各表現とそのプロトタイプとの分布変化を継続的に測定し、潜在的な偏りのあるデータを選別していきます。最終的には、無偏倚な述語-プロトタイプ表現埋め込み空間において、偏った注釈が容易に識別できるようになります。実験結果は、ADTransがベンチマークモデルの性能を大幅に向上させることを示しており、新たな最先端の性能を達成しています。また、複数のデータセットにおいても優れた汎化能力和効果性が確認されています。