
要約
我々は、監督学習または非監督学習の少ショット画像分類と少ショット行動認識のために、マルチレベル二次(MlSo)少ショット学習ネットワークを提案します。本研究では、いわゆるパワーノルム化された二次ベースラーナーストリームと、視覚的な抽象度を複数段階で表現する特徴量を組み合わせることで、自己教師あり識別メカニズムを利用しています。二次プーリング(SoP)が画像認識において広く使用されていることから、基本的な要素ごとの変種をパイプラインに採用しました。マルチレベル特徴設計の目的は、CNNの異なる層レベルで特徴表現を抽出し、視覚的な抽象度のいくつかの段階を実現することで堅牢な少ショット学習を達成することです。SoPが空間サイズが異なる畳み込み特徴マップに対応できるため、MlSoには複数の空間スケールでの画像入力も導入しました。複数段階および複数スケールの特徴から識別情報を効果的に利用するために、それぞれのブランチの重み付けを行うFeature Matching(FM)モジュールを開発しました。また、空間レベルと抽象度スケールの識別器として自己教師ありステップも導入しています。本パイプラインはエンドツーエンドで訓練されます。単純なアーキテクチャにより、Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC などの標準データセットや CUB Birds, Stanford Dogs and Cars などの細かい区分データセット、そして HMDB51, UCF101, mini-MIT などの行動認識データセットにおいて優れた結果を示しています。