2ヶ月前
質問誘導型ハイブリッド畳み込みを用いた視覚的質問応答
Peng Gao; Pan Lu; Hongsheng Li; Shuang Li; Yikang Li; Steven Hoi; Xiaogang Wang

要約
本論文では、視覚質問応答(Visual Question Answering: VQA)のための新しい質問誘導型ハイブリッド畳み込み(Question-Guided Hybrid Convolution: QGHC)ネットワークを提案します。現行の最先端VQA手法は、ニューラルネットワークから得られる高レベルな文章特徴量と視覚特徴量を融合する際、視覚的な空間情報を見逃しています。これらの問題に対処するために、入力された質問から生成される質問誘導型カーネルを設計し、初期段階で文章と視覚の関係性を捉えるために視覚特徴量との畳み込みを行います。質問誘導型畳み込みは、文章と視覚情報を緊密に結合することができますが、カーネル学習時に多くのパラメータを導入することにもなります。これを解決するために、質問に依存しないカーネルと質問に依存するカーネルから構成されるグループ畳み込みを適用し、パラメータ数を削減し過学習を緩和します。ハイブリッド畳み込みは少ないパラメータで識別可能な多モーダル特徴量を生成できます。提案手法は既存の双線形プーリング融合や注意機構に基づくVQA手法と補完的であり、それらと組み合わせることにより性能向上が期待されます。公開VQAデータセットにおける広範な実験により、QGHCの有効性が確認されました。