11日前

KnowZRel:汎化シーングラフ生成のための常識知識ベース零-shot関係検索

{Edward Curry, John G. Breslin, M. Jaleed Khan}
要約

シーングラフは視覚的推論における重要な画像表現形式である。シーングラフ生成(SGG)手法の汎化能力は、信頼性の高い推論および実世界への適用性にとって極めて重要である。しかし、トレーニングデータセットの不均衡が、意味ある視覚的関係の表現不足を引き起こし、その汎化を制限している。現在のSGG手法は外部知識源を活用しているが、データの不均衡や関係のカバレッジ制限により、推論および汎化能力に制約を受ける。本研究では、データ駆動型の物体検出と、異種知識グラフ(heterogeneous knowledge graph)を用いた物体の精緻化、ゼロショット関係検索を統合する新しい神経記号的アプローチを提案する。このアプローチは、ニューラル成分と記号的成分との間における緩やかな連携(loosely coupled synergy)を強調しており、不均衡なトレーニングデータセットの制約を克服し、未観測の視覚的関係の効果的な予測を可能にする。物体は領域ベースの深層ニューラルネットワークにより検出され、位置的・構造的類似性に基づいて精緻化された後、異種知識グラフを用いて対となる視覚的関係を検索する。関係ラベルおよびノード埋め込みの類似性に基づき、重複・不適切な視覚的関係が除外される。最後に、視覚的関係が相互に連結され、シーングラフが生成される。本研究で用いられた異種知識グラフは、多様な知識源を統合しており、物体およびその相互作用に関する豊富な常識的知識を提供する。ベンチマークとしてVisual Genomeデータセットを用い、ゼロショット再現率(zR@K)を評価指標として採用した結果、従来の最先端手法と比較して59.96%の向上を達成し、汎化型SGGにおける有効性を示した。また、物体精緻化ステップにより、物体検出性能が57.1%向上した。さらに、GQAデータセットを用いた追加評価により、本手法のデータセット間汎化能力が確認された。また、さまざまな知識源および埋め込みモデルを比較し、ゼロショットSGGにおける最適な組み合わせを同定した。本手法のソースコードは、https://github.com/jaleedkhan/zsrr-sgg にて公開されている。

KnowZRel:汎化シーングラフ生成のための常識知識ベース零-shot関係検索 | 最新論文 | HyperAI超神経