
要約
視覚認識タスクにおける少サンプル学習(few-shot learning)は、少数のサポート例でオブジェクトカテゴリを学習する能力を要する。深層学習の発展を背景に再び注目を集めつつあるが、その多くは画像分類に限られている。本研究では、依然としてほとんど未開拓とされる少サンプルセマンティックセグメンテーションに焦点を当てる。近年のいくつかの進展は、単一クラスの少サンプルセグメンテーションに限定されていることが多く、多クラス対応が困難である。本論文では、まず、マルチウェイ(複数クラス)のエンコーディングおよびデコーディングアーキテクチャを提案する。このアーキテクチャは、マルチスケールのクエリ情報とマルチクラスのサポート情報の有効な統合を可能にし、一つのクエリ-サポート埋め込み(query-support embedding)を生成する。この埋め込みに基づいて、直接的にマルチクラスセグメンテーションがデコードされる。より効果的な特徴統合を実現するため、アーキテクチャ内に多段階のアテンション機構を導入した。この機構は、サポート特徴のモジュレーションに用いるアテンションと、マルチスケール特徴の組み合わせに用いるアテンションの両方を含む。さらに、埋め込み空間の学習を強化するため、入力画像のピクセルレベルの埋め込みに対して三重ペア損失(triplet loss)を定式化した追加のピクセル単位のメトリック学習モジュールを導入している。標準ベンチマークであるPASCAL-5iおよびCOCO-20iにおける広範な実験により、本手法が既存の最先端技術に対して明確な優位性を示したことが確認された。