
要約
私たちは、細かい視覚認識のための単純かつ効果的なアーキテクチャである双線形畳み込みニューラルネットワーク(B-CNNs)を提案します。これらのネットワークは、2つのCNNから導き出された特徴量のプーリング外積として画像を表現し、移動不変性を持つ局所的な特徴量相互作用を捉えます。B-CNNsは無順序なテクスチャ表現のクラスに属していますが、これまでの研究とは異なりエンドツーエンドで学習することができます。私たちの最も精度の高いモデルは、Caltech-UCSD鳥類データセット[67]、NABirdsデータセット[64]、FGVC航空機データセット[42]、およびStanford車両データセット[33]においてそれぞれ84.1%、79.4%、86.9%、91.3%の画像ごとの精度を達成しており、NVIDIA Titan X GPU上で30フレーム毎秒で動作します。さらに、これらのネットワークについて系統的な分析を行い、(1) 双線形特徴量が非常に冗長であり、精度に大きな影響を与えることなくサイズを1桁削減できることが示されました。(2) テクスチャ認識やシーン認識などの他の画像分類タスクにも効果的であることが確認されました。(3) ImageNetデータセットから一から学習させることも可能であり、ベースラインアーキテクチャに対して一貫した改善を提供することが示されています。最後に、神経ユニットのトップ活性化と勾配に基づく逆転技術を使用して、さまざまなデータセットでのこれらのモデルの可視化を行います。システム全体のソースコードは http://vis-www.cs.umass.edu/bcnn で入手可能です。