
要約
パノプティック・シーングラフ生成(PSG)は、画像のシーン理解において最近提案されたタスクで、画像をセグメンテーションし、主語、目的語、およびそれらの関係からなる三つ組を抽出してシーングラフを構築することを目指しています。このタスクは特に2つの理由により困難です。第一に、その関係カテゴリーにおいてロングテール問題が発生しており、単純な偏った手法は高頻度の関係に傾倒しがちです。既存の非偏倚的手法では、データ/損失の再平衡化によって低頻度の関係を重視することでロングテール問題に対処しています。第二に、主語-目的語ペアが2つ以上の意味的に重複する関係を持つことがあります。既存の手法ではこれらのうち1つを優先しますが、我々が提案するHiLoフレームワークでは異なるネットワークブランチが低頻度と高頻度の関係に特化し、一貫性を確保し結果を融合させます。我々の知る限りでは、明示的に非偏倚的なPSG手法を提案した最初の研究グループとなります。広範な実験を通じて、我々のHiLoフレームワークがPSGタスクにおいて最先端の成果を達成していることを示しました。また、マスクではなくボックスを予測するScene Graph Generationタスクにも当手法を適用し、すべてのベースライン手法に対して改善が見られました。コードはhttps://github.com/franciszzj/HiLo で公開されています。