AlignMixup: Verbesserung von Darstellungen durch Interpolation ausgerichteter Merkmale

Mixup ist eine leistungsfähige Methode zur Datenverstärkung, die zwischen zwei oder mehr Beispielen im Eingaberaum oder im Merkmalsraum sowie zwischen den entsprechenden Zielbezeichnungen interpoliert. Viele neuere Mixup-Verfahren konzentrieren sich darauf, zwei oder mehr Objekte in ein Bild zu schneiden und einzufügen, was eher auf eine effiziente Verarbeitung abzielt als auf echte Interpolation. Die optimale Art der Bildinterpolation ist jedoch bisher nicht eindeutig definiert. In diesem Sinne wurde Mixup mit Autoencodern verknüpft, da Autoencoder oft „gut interpolieren“, beispielsweise Bilder erzeugen, die kontinuierlich in andere übergehen.In dieser Arbeit betrachten wir Mixup erneut aus der Perspektive der Interpolation und führen AlignMix ein, bei dem wir zwei Bilder geometrisch im Merkmalsraum ausrichten. Die so entstehenden Korrespondenzen ermöglichen es uns, zwischen zwei Merkmalsmengen zu interpolieren, während die Positionen einer dieser Mengen erhalten bleiben. Interessanterweise resultiert hieraus eine Situation, in der Mixup hauptsächlich die Geometrie oder Pose eines Bildes und die Textur des anderen beibehält – eine Verbindung zur Stilübertragung (style transfer). Darüber hinaus zeigen wir, dass ein Autoencoder die Repräsentationslernung unter Mixup weiter verbessern kann, ohne dass der Klassifikator jemals entschlüsselte Bilder sieht. AlignMix erreicht auf fünf unterschiedlichen Benchmarks eine bessere Leistung als aktuell beste Mixup-Methoden.