Domain Generalization durch das Lösen von Jigsaw-Puzzles

Die menschliche Anpassungsfähigkeit hängt entscheidend von der Fähigkeit ab, Wissen sowohl durch überwachtes als auch durch unüberwachtes Lernen zu erwerben und zu integrieren: Eltern weisen einige wichtige Konzepte hin, aber die Kinder füllen dann selbstständig die Lücken. Dies ist besonders effektiv, da überwachtes Lernen niemals vollständig sein kann und daher autonomes Lernen es ermöglicht, Invarianten und Regularitäten zu entdecken, die zur Generalisierung beitragen. In dieser Arbeit schlagen wir einen ähnlichen Ansatz für die Aufgabe der Objekterkennung über verschiedene Domains vor: unser Modell lernt semantische Labels in einem überwachten Modus und erweitert sein Verständnis der Daten durch das Lernen aus selbstüberwachten Signalen, wie man ein Jigsaw-Puzzle auf denselben Bildern löst. Diese sekundäre Aufgabe hilft dem Netzwerk, räumliche Korrelationen zu verstehen, während sie gleichzeitig als Regularisierer für die Klassifizierungsaufgabe dient. Mehrere Experimente mit den Datensätzen PACS, VLCS, Office-Home und Digits bestätigen unsere Intuition und zeigen, dass diese einfache Methode frühere Lösungen für Domain-Generalisierung und -Anpassung übertrifft. Eine Ablationsstudie verdeutlicht zudem die internen Mechanismen unseres Ansatzes.