2ヶ月前

CLEVR-Ref+: 指示表現を用いた視覚的推論の診断

Runtao Liu; Chenxi Liu; Yutong Bai; Alan Yuille
CLEVR-Ref+: 指示表現を用いた視覚的推論の診断
要約

参照物体検出と参照画像セグメンテーションは、視覚情報と自然言語の統合的理解を必要とする重要なタスクです。しかし、現行のベンチマークデータセットにはバイアスが存在し、最先端モデルの中間推論プロセスを容易に評価できないという証拠があります。これらの問題に対処し、視覚質問応答における類似の取り組みを補完するため、我々は参照表現理解用の合成診断データセットであるCLEVR-Ref+を構築しました。対象物体の正確な位置と属性が利用可能であり、参照表現は機能プログラムに自動的に関連付けられています。合成的な性質によりデータセットのバイアスを制御(サンプリング戦略を通じて)でき、モジュール型プログラムは人間の注釈者なしで中間推論の真実値を提供します。CLEVR-Ref+でのいくつかの最先端モデルの評価に加えて、我々はIEP-Refというモジュールネットワークアプローチも提案しています。この方法は当該データセットにおいて他のモデルを大幅に上回る性能を示しています。特に、IEP-Refを使用して二つの興味深く重要な知見を提示します:(1) 特徴マップをセグメンテーションマスクに変換するためのトレーニングされたモジュールは、任意の中間モジュールに接続することで全体的な推論過程をステップバイステップで明らかにすることができます;(2) すべての学習データが少なくとも一つ以上の物体を指している場合でも、誤った前提に基づく参照表現に対してIEP-Refは正しく前景がないことを予測することができます。我々が知る限りでは、これはニューラルモジュールが意図通りに動作することを直接かつ定量的に証明した初めてのものです。

CLEVR-Ref+: 指示表現を用いた視覚的推論の診断 | 最新論文 | HyperAI超神経