Das Lernen mehrerer visueller Domänen mit Residual-Adaptieren

Es besteht ein wachsender Interesse daran, Datenrepräsentationen zu erlernen, die für viele verschiedene Problemstellungen und Datentypen gut funktionieren. In dieser Arbeit untersuchen wir insbesondere die Aufgabe, eine einzelne visuelle Repräsentation zu erlernen, die erfolgreich bei der Analyse sehr unterschiedlicher Bildtypen eingesetzt werden kann, von Hunderrassen über Stoppschilder bis hin zu Ziffern. Inspiriert durch jüngste Arbeiten zum Lernen von Netzen, die die Parameter eines anderen Netzes vorhersagen, entwickeln wir eine einstellbare Deep-Network-Architektur, die durch Adapter-Residual-Module im Echtbetrieb auf verschiedene visuelle Domains ausgerichtet werden kann. Unsere Methode erreicht einen hohen Grad an Parameterfreigabe, während sie gleichzeitig oder sogar verbessert die Genauigkeit domänenspezifischer Repräsentationen beibehält. Wir stellen außerdem die Visual Decathlon Challenge vor, einen Benchmark, der die Fähigkeit von Repräsentationen bewertet, gleichzeitig zehn sehr unterschiedliche visuelle Domains abzubilden und ihre Leistungsfähigkeit zur einheitlichen Erkennung misst.