vor einem Monat

Tiefe Faltung ist alles, was Sie für das Lernen mehrerer visueller Domänen benötigen.

Yunhui Guo; Yandong Li; Rogerio Feris; Liqiang Wang; Tajana Rosing

Abstract

Es gibt ein wachsendes Interesse an der Entwicklung von Modellen, die mit Bildern aus verschiedenen visuellen Domänen umgehen können. Falls eine universelle Struktur in verschiedenen visuellen Domänen existiert, die durch eine gemeinsame Parametrisierung erfasst werden kann, dann können wir ein einzelnes Modell für alle Domänen verwenden, anstatt für jede Domäne ein separates Modell. Ein Modell, das die Beziehungen zwischen verschiedenen Domänen kennt, kann auch mit weniger Ressourcen auf neue Domänen trainiert werden. Die Identifizierung der wiederverwendbaren Struktur in einem Modell ist jedoch nicht einfach. In dieser Arbeit schlagen wir eine mehrdomänen-basierte Lernarchitektur vor, die auf tiefenweise separierter Faltung (depthwise separable convolution) basiert. Der vorgeschlagene Ansatz geht davon aus, dass Bilder aus verschiedenen Domänen kanalübergreifende Korrelationen teilen, aber domänenspezifische räumliche Korrelationen haben. Das vorgeschlagene Modell ist kompakt und hat einen minimalen Overhead bei der Anwendung auf neue Domänen. Darüber hinaus führen wir ein Gating-Mechanismus ein, um eine weiche Teilaufteilung (soft sharing) zwischen verschiedenen Domänen zu fördern. Wir evaluieren unseren Ansatz am Visual Decathlon Challenge, einem Benchmark zur Prüfung der Leistungsfähigkeit von mehrdomänen-basierten Modellen. Die Experimente zeigen, dass unser Ansatz den höchsten Score erreichen kann und dabei nur 50 % der Parameter benötigt im Vergleich zu den bislang besten Methoden (state-of-the-art approaches).