17日前

Wave-SAN：クロスドメイン少サンプル学習のためのウェーブレットベースのスタイル増強ネットワーク

Yuqian Fu, Yu Xie, Yanwei Fu, Jingjing Chen, Yu-Gang Jiang

要約

最近の少サンプル学習（Few-Shot Learning, FSL）の研究は、主に一般的な概念やカテゴリを対象とする自然画像に限定されており、ソースクラスとターゲットクラスの間で視覚的に非常に高い類似性が仮定されている。これに対して、近年提案されたクロスドメイン少サンプル学習（Cross-Domain Few-Shot Learning, CD-FSL）は、多数のラベル付き例を持つ一般自然画像から、ラベル付き例が僅かしかないドメイン特有の新しいターゲットカテゴリへ知識を転移することを目的としている。CD-FSLの主な課題は、ソースドメインとターゲットドメイン間の大きなデータシフトであり、これは視覚スタイルがまったく異なる形で現れることが一般的である。このため、従来のFSL手法を直接CD-FSLタスクに適用することは極めて困難である。本研究では、ソースデータセットのスタイル分布を拡張することでCD-FSLの問題に取り組む。特に、ウェーブレット変換を導入し、視覚表現を低周波成分（形状やスタイルなど）と高周波成分（テクスチャなど）に分解可能にする。モデルの視覚スタイルに対するロバスト性を高めるために、ソース画像の低周波成分のスタイルを相互に交換することで画像の拡張を実現する。本研究では、このアイデアを実装するための新規なスタイル拡張モジュール（StyleAug）を提案する。さらに、スタイル拡張画像の予測結果が元の画像と意味的に類似していることを保証するため、自己教師学習（Self-Supervised Learning, SSL）モジュールを導入する。これにより、スタイルの交換に伴う潜在的な意味のずれ（semantic drift）を回避できる。2つのCD-FSLベンチマークにおける広範な実験により、本手法の有効性が示された。本研究のコードとモデルは公開予定である。