
要約
シーングラフ生成は、特定の認識パターンが存在しないため、高度な課題である。たとえば、「見つめている」と「近くにある」という関係は視覚的に明確な違いを持たない一方で、形状が異なるエンティティ間にも「近くにある」という関係が成立しうる。このため、一部のシーングラフ生成手法は、視覚特徴の不定性やデータセットの細部に起因するノイズに影響され、頻度の高い関係の予測に偏りがちとなる。近年の研究では、より情報豊かなシーングラフを生成するため、「偏りのない(unbiased)」アプローチの重要性が強調されている。しかし、人間が多数のオブジェクト間の関係を迅速かつ正確に判断できるのは、純粋な視覚ではなく、経験や言語的知識といった「バイアス」に起因している。本研究では、この「認知バイアス」のメカニズムに着想を得て、人間が言語的ラベル特徴を視覚表現のガイドとして活用するプロセスを模倣する、新たな3パラダイム構造を提案する。このフレームワークにより、隠れた関係パターンの抽出を強化し、ノイズの多い視覚情報の伝播を軽減することが可能となる。本フレームワークは、任意のシーングラフモデルに対してモデル非依存である。広範な実験により、最小限のパラメータ増加で複数の指標においてベースラインを上回り、Visual Genomeデータセットにおいて新たなSOTA(最良の結果)を達成したことが実証された。