バイアスのある訓練データからの無偏倚なシーングラフ生成

今日のシーングラフ生成(Scene Graph Generation: SGG)タスクは、依然として実用的な段階に達しておらず、主に訓練データの偏りが深刻なことが原因となっています。例えば、「人間がビーチを歩く / 座る / 躺る」のような多様な動作が「人間がビーチにいる」という単純な表現に収束してしまうような場合です。このようなSGGでは、VQA(Visual Question Answering)などの下流タスクにおいて、単なるオブジェクトの集合よりも優れたシーン構造を推論することは困難です。しかし、SGGにおける偏りの除去は容易ではありません。なぜなら、従来の偏り除去手法では、良い偏りと悪い偏りを区別できないからです。例えば、「人が本を読む」(「食べる」ではなく)という良いコンテキスト事前情報と、「近い」が「後ろに / 前に」を支配するような悪い長尾偏り(long-tailed bias)との区別がつきません。本論文では、従来の尤度ではなく因果推論に基づいた新しいSGGフレームワークを提案します。まず、SGG用の因果グラフを作成し、そのグラフを使用して従来の偏った訓練を行います。次に、訓練されたグラフから反実仮想因果関係(counterfactual causality)を引き出し、悪影響を与える偏りの効果を推定し除去することを提案します。特に、無偏倚SGGのために最終的な述語スコアとして総直接効果(Total Direct Effect: TDE)を使用します。当該フレームワークは任意のSGGモデルに対して非依存であるため、無偏倚予測を目指すコミュニティで広く応用することができます。提案したシーングラフ診断ツールキットを使用し、SGGベンチマークであるVisual Genomeといくつかの主流モデルで評価した結果、従来の最先端手法よりも大幅な改善が観察されました。