16日前

少量ショットCNNセグメンテーションにおけるテクスチャバイアスについて

Reza Azad, Abdur R Fayjie, Claude Kauffman, Ismail Ben Ayed, Marco Pedersoli, Jose Dolz

要約

畳み込みニューラルネットワーク（CNN）が視覚認識タスクを実行する際には形状に基づいて動作すると当初考えられてきたが、最近の研究結果によれば、大規模なラベル付き学習データセット上で学習する際、CNNにはテクスチャバイアスが存在し、その結果、より高い性能を発揮するモデルが得られることが示されている。これは、人間の視覚皮質における知覚バイアスと対照的であり、人間の視覚系は形状成分に対してより強い好みを示す。このような知覚的差異が、大規模なラベル付きデータセットが利用可能である場合にCNNが人間レベルの性能を達成する理由であり、一方でラベルが限られたデータ環境（たとえば、フェイショットセマンティックセグメンテーションなど）では性能が著しく低下する理由にもなる。本研究では、フェイショット学習の文脈においてテクスチャバイアスを除去するため、ガウシアン差分（Difference of Gaussians: DoG）を組み込んだ新しいアーキテクチャを提案する。この手法により、特徴空間内の高周波成分を空間領域における異なる標準偏差値を持つガウス分布によって減衰させ、複数の変更された特徴マップを生成する。一つの画像に対して複数の特徴マップが得られるため、多スケール空間表現を効率的に統合するため、双方向畳み込みLSTM（bi-directional convolutional long-short-term-memory）を採用している。本手法は、代表的な3つのフェイショットセグメンテーションベンチマーク（Pascal i5、COCO-20i、FSS-1000）において広範な実験を実施し、同じ条件下で2つのデータセットにおいて最先端の手法を上回ることを示した。実装コードは以下のURLから公開されている：https://github.com/rezazad68/fewshot-segmentation