16日前

常識知識のインジェクションを用いた表現力豊かなシーングラフ生成:視覚理解および推論への応用

{Edward, John G.; Curry, M. Jaleed; Breslin, Khan}
要約

シーングラフ生成は、画像内のオブジェクトおよびそれらの関係を構造的にモデル化することで、画像の意味的要素を捉えることを目的としており、画像キャプション生成、視覚的質問応答、マルチメディアイベント処理、視覚的ストーリーテリング、画像検索などの視覚的理解および推論タスクにおいて不可欠な技術である。現存するシーングラフ生成手法は、高レベルな視覚的理解および推論において、性能および表現力に限界がある。この課題は、シーングラフ内の意味的要素に関する共通知識(たとえば関連する事実や背景知識)を活用することで軽減可能である。本研究では、7つの異なる知識ベースから統合された共通知識を含む異種知識源を用い、シーングラフ内の意味的要素に関する多様な共通知識を組み込むことで、豊かで表現力に富んだシーングラフの生成を実現する手法を提案する。本手法では、オブジェクトノードのグラフ埋め込みを用いて、知識源における構造的パターンを活用し、グラフの精緻化および拡張に向けた類似度指標を計算する。標準ベンチマークであるVisual Genomeデータセットを用いた実験および比較分析の結果、提案手法は既存の最先端技術(K = 20, 50, 100の各場合におけるR@K = 25.8, 33.3, 37.8)と比較して、より高い再現率(R@K = 29.89, 35.4, 39.12)を達成した。また、画像生成という下流タスクにおける定性的評価において、共通知識に基づくシーングラフを用いることで、より現実的かつ自然な画像が生成されることが確認された。これらの結果は、共通知識の導入が、視覚的理解および推論タスクにおけるシーングラフ生成の性能と表現力を向上させる有効性を示している。

常識知識のインジェクションを用いた表現力豊かなシーングラフ生成:視覚理解および推論への応用 | 最新論文 | HyperAI超神経