2ヶ月前
微細なシーングラフ生成におけるデータ転送
Ao Zhang; Yuan Yao; Qianyu Chen; Wei Ji; Zhiyuan Liu; Maosong Sun; Tat-Seng Chua

要約
シーングラフ生成(SGG)は、画像から(主語、述語、目的語)の三つ組を抽出することを目的としています。最近の研究では、SGGにおいて着実な進展が見られ、高次視覚と言語理解に有用なツールを提供しています。しかし、データ分布問題(包括的な長尾分布や意味的曖昧性など)により、現在のSGGモデルの予測は頻繁に現れるが情報量の少ない述語(例:on, at)に収束する傾向があり、これが下流タスクにおけるこれらのモデルの実用的な応用を制限しています。上記の問題に対処するために、私たちは新しい内部外部データ転送(IETrans)手法を提案します。この手法はプラグアンドプレイ形式で適用でき、1,807個の述語クラスを持つ大規模なSGGにも拡張可能です。私たちのIETransは、自動的に強化されたデータセットを作成することでデータ分布問題を緩和しようと試みています。このデータセットはすべての述語に対してより十分で一貫性のある注釈を提供します。強化されたデータセットでの学習により、Neural Motifモデルはマクロ性能が倍増し、ミクロ性能も競争力のあるレベルを維持しました。コードとデータは公開されており、https://github.com/waxnkw/IETrans-SGG.pytorch から入手できます。