vor 16 Tagen

Zur Texturbias bei Few-Shot CNN-Segmentierung

Reza Azad, Abdur R Fayjie, Claude Kauffman, Ismail Ben Ayed, Marco Pedersoli, Jose Dolz

Abstract

Trotz der ursprünglichen Annahme, dass Convolutional Neural Networks (CNNs) zur Durchführung visueller Erkennungsaufgaben hauptsächlich auf Formen basieren, deuten neuere Erkenntnisse darauf hin, dass ein Texturen-Bias in CNNs bei der Lernung auf großen, beschrifteten Trainingsdatensätzen zu leistungsstärkeren Modellen führt. Dies steht im Gegensatz zu der Wahrnehmungspräferenz im menschlichen visuellen Kortex, die stärker auf Formkomponenten ausgerichtet ist. Diese wahrnehmungsbedingten Unterschiede könnten erklären, warum CNNs bei Verfügbarkeit großer beschrifteter Datensätze menschenähnliche Leistung erzielen, jedoch in Szenarien mit geringen Beschriftungsdaten – wie beispielsweise Few-Shot-Semantic-Segmentation – erheblich an Leistung verlieren. Um den Texturen-Bias im Kontext des Few-Shot-Lernens zu reduzieren, schlagen wir eine neuartige Architektur vor, die eine Reihe von Difference-of-Gaussians (DoG) integriert, um hochfrequente lokale Komponenten im Merkmalsraum zu dämpfen. Dadurch entstehen modifizierte Merkmalskarten, deren hochfrequente Anteile bei unterschiedlichen Standardabweichungen der Gauss-Verteilung im räumlichen Bereich abgeschwächt werden. Da dies für ein einzelnes Bild mehrere Merkmalskarten ergibt, verwenden wir ein bidirektionales convolutionales Long-Short-Term-Memory-Netzwerk, um die mehrskaligen Raumrepräsentationen effizient zu fusionieren. Wir führen umfangreiche Experimente auf drei etablierten Few-Shot-Segmentation-Benchmarks durch – Pascal i5, COCO-20i und FSS-1000 – und zeigen, dass unsere Methode in zwei dieser Datensätze unter gleichen Bedingungen die bisher besten Ansätze übertrifft. Der Quellcode ist unter folgender Adresse verfügbar: https://github.com/rezazad68/fewshot-segmentation