7ヶ月前

概要

視覚的な質問応答は、画像に対する高次元の推論を必要とし、これは機械システムが複雑な指示に従うために必要な基本的な能力です。最近、モジュラーネットワークが視覚的な推論タスクを行うための効果的なフレームワークであることが示されています。しかし、モジュラーネットワークは当初、モデルの透明性を一定程度持っていたにもかかわらず、複雑な視覚的推論ベンチマークでの性能が不足していました。現在の最先端アプローチは、推論過程を理解するための効果的なメカニズムを提供していません。本稿では、解釈可能なモデルと最先端の視覚的推論手法との間の性能ギャップを埋めることを目指します。私たちは一連の視覚的推論プリミティブ（visual-reasoning primitives）を提案します。これらのプリミティブを組み合わせることで、複雑な推論タスクを明確に解釈可能な方法で実行できるモデルが現れます。プリミティブの出力の忠実度と解釈可能性により、結果得られたモデルの強みと弱点を診断する前所未有的な能力が得られます。特に重要な点として、これらのプリミティブは非常に高性能であり、CLEVRデータセットにおいて99.1%という最先端の精度を達成しています。また、新しいオブジェクト属性を持つ少量のデータが提供された場合でも、私たちのモデルは効果的に一般化された表現を学習することが示されています。CoGenT一般化タスクを使用して評価したところ、現在の最先端技術に対して20ポイント以上の改善が見られました。

ソースPDF