HyperAIHyperAI

Command Palette

Search for a command to run...

RelViT:視覚的関係推論を指向した概念誘導型Vision Transformer

Xiaojian Ma Weili Nie Zhiding Yu Huaizu Jiang Chaowei Xiao Yuke Zhu Song-Chun Zhu Anima Anandkumar

概要

視覚的関係に関する推論は、人間が視覚的世界を解釈する際に中心的な役割を果たしている。現在の深層学習アルゴリズムにとって、このタスクは依然として困難であり、以下の3つの主要な技術的課題を統合的に解決する必要があるためである:1)オブジェクトエンティティおよびその属性の特定、2)エンティティ間の意味的関係の推論、3)新たなオブジェクト-関係の組み合わせに対する一般化、すなわち体系的一般化(systematic generalization)。本研究では、視覚推論のベースモデルとして視覚変換器(Vision Transformers, ViTs)を採用し、オブジェクトエンティティおよびそれらの関係という概念をより効果的に活用することで、ViTsの推論能力を向上させることを目的とする。具体的には、トレーニング時に概念キーを用いて柔軟な画像特徴の検索を可能にする新しい「概念特徴辞書(concept-feature dictionary)」を導入した。この辞書により、2つの新しい概念誘導型補助タスクを実現している:1)関係性推論を促進するグローバルタスク、および2)意味的オブジェクト中心の対応学習を支援するローカルタスク。視覚推論モデルの体系的一般化能力を評価するため、標準的なHICOおよびGQAベンチマークに対して体系的分割(systematic splits)を導入した。その結果、本研究で提案する概念誘導型視覚変換器(Concept-guided Vision Transformer、略してRelViT)は、従来の分割においてHICOおよびGQAでそれぞれ16%、13%の性能向上を達成し、体系的分割ではさらに43%、18%の顕著な改善を示した。また、アブレーション解析により、本モデルが複数のViTアーキテクチャと互換性があり、ハイパーパラメータの変動に対して高いロバスト性を示すことが明らかになった。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています