
要約
シーングラフは、画像の意味的な抽象化であり、視覚的理解と推論を促進します。しかし、実世界のシナリオにおいてバイアスのあるデータに直面した場合、シーングラフ生成(SGG)の性能は満足いくものではありません。従来の除バイアス研究は、主にデータ分布のバランスを取るか、またはバイアスのないモデルや表現を学習するという観点から研究が行われてきましたが、バイアスのあるクラス間の相関関係には注目していませんでした。本研究では、この問題を新しい認知的観点から分析します:バイアスのある予測から階層的な認知構造を自動的に構築し、その階層構造をナビゲートすることで関係性を見つける方法です。これにより、細かい部分まで注意が払われる形で尾部(tail)の関係性により多くの注目が集まります。この目的のために、私たちは無バイアスなSGGのために新しい除バイアス認知ツリー(CogTree)損失を提案します。まず、バイアスのあるSGGモデルの予測に基づいて関係性を整理するための認知構造CogTreeを構築します。CogTreeは最初に著しく異なる関係性を区別し、その後で混同されやすい一部の関係性に焦点を当てます。次に、この認知構造専用の除バイアス損失を提案します。この損失は正解の関係性に対して粗いレベルから細かいレベルへと区別を行うことをサポートします。また、モデル非依存であり、いくつかの最先端モデルの性能向上に一貫して寄与しています。コードは以下のURLで公開されています:https://github.com/CYVincent/Scene-Graph-Transformer-CogTree