6ヶ月前

概要

視覚的関係に関する推論は、人間が視覚的世界を解釈する際に中心的な役割を果たしている。現在の深層学習アルゴリズムにとって、このタスクは依然として困難であり、以下の3つの主要な技術的課題を統合的に解決する必要があるためである：1）オブジェクトエンティティおよびその属性の特定、2）エンティティ間の意味的関係の推論、3）新たなオブジェクト-関係の組み合わせに対する一般化、すなわち体系的一般化（systematic generalization）。本研究では、視覚推論のベースモデルとして視覚変換器（Vision Transformers, ViTs）を採用し、オブジェクトエンティティおよびそれらの関係という概念をより効果的に活用することで、ViTsの推論能力を向上させることを目的とする。具体的には、トレーニング時に概念キーを用いて柔軟な画像特徴の検索を可能にする新しい「概念特徴辞書（concept-feature dictionary）」を導入した。この辞書により、2つの新しい概念誘導型補助タスクを実現している：1）関係性推論を促進するグローバルタスク、および2）意味的オブジェクト中心の対応学習を支援するローカルタスク。視覚推論モデルの体系的一般化能力を評価するため、標準的なHICOおよびGQAベンチマークに対して体系的分割（systematic splits）を導入した。その結果、本研究で提案する概念誘導型視覚変換器（Concept-guided Vision Transformer、略してRelViT）は、従来の分割においてHICOおよびGQAでそれぞれ16%、13%の性能向上を達成し、体系的分割ではさらに43%、18%の顕著な改善を示した。また、アブレーション解析により、本モデルが複数のViTアーキテクチャと互換性があり、ハイパーパラメータの変動に対して高いロバスト性を示すことが明らかになった。

ソースPDF