
深層ネットワークモデルは、訓練時および未知データに対する推論時において、しばしば純粋な帰納的(inductive)アプローチを採用する。このようなモデルを予測に用いる場合、データセット内の重要な意味的情報や潜在的な依存関係を捉え損なう可能性がある。近年の進展により、大規模な視覚・言語統合環境において複数モダリティを組み合わせることで、理解力および一般化性能の向上が可能であることが示されている。しかし、モデルの規模が大きくなるにつれて、微調整(fine-tuning)やデプロイメントの計算コストが著しく増大し、少数の下流タスクに対しても高負荷となる。さらに、特に大規模かつノイズの多い環境において、ドメイン知識や事前知識をバックプロパゲーションに適した形で明示的に定式化する方法は、まだ明確でない。こうした課題に対応するため、我々は事前学習済みの深層ネットワークからの特徴量と、自由に入手可能な明示的意味知識を組み合わせる簡素化された代替手法を提案する。画像と一致しない不要な明示的知識を除去するために、我々は暗黙的(implicit)な微分可能な分布外(Out-of-Distribution, OOD)検出層を導入する。この層は、微分可能な関数の固定点を解くことで異常値検出を実現し、固定点ソルバーの最終反復結果を用いて逆伝播を行う。実際の応用では、複数の視覚・言語下流タスク(視覚質問応答、視覚推論、画像・テキスト検索など)において本モデルを検証した。実験の結果、最先端の性能と同等の結果を達成しつつ、大幅に少ないサンプル数と短い学習時間でモデル設計が可能であることが示された。本研究のモデルおよびコードは以下のリンクから公開されている:https://github.com/ellenzhuwang/implicit_vkood