MultiGrain: eine einheitliche Bildrepräsentation für Klassen und Instanzen

MultiGrain ist eine Netzwerkarchitektur, die kompakte Vektordarstellungen erzeugt, die sowohl für die Bildklassifizierung als auch für die spezifische Objektabrufung geeignet sind. Sie basiert auf einem Standard-Klassifikationstrunk. Der obere Teil des Netzes erzeugt eine Einbettung (Embedding), die grobe und feingranulare Informationen enthält, sodass Bilder auf der Grundlage der Objektklasse, des speziellen Objekts oder wenn sie verzerrte Kopien sind, erkannt werden können. Unser gemeinsames Training ist einfach: Wir minimieren einen Kreuzentropieverlust (cross-entropy loss) für die Klassifizierung und einen Rangverlust (ranking loss), der bestimmt, ob zwei Bilder bis auf Datenverstärkung identisch sind, ohne zusätzliche Labels zu benötigen. Ein wesentlicher Bestandteil von MultiGrain ist eine Pooling-Schicht, die von hochaufgelösten Bildern profitiert, während das Netzwerk bei einer niedrigeren Auflösung trainiert wird.Wenn diese gelernten Einbettungen einem linearen Klassifikator zugeführt werden, bieten sie den aktuellen Stand der Technik in Bezug auf Klassifikationsgenauigkeit. Zum Beispiel erreichen wir mit einem ResNet-50, das auf Imagenet gelernt wurde, eine Top-1-Genauigkeit von 79,4%, was eine absolute Verbesserung von +1,8% im Vergleich zur AutoAugment-Methode darstellt. Bei moderater Auflösung erreichen dieselben Einbettungen in Verbindung mit dem Kosinusähnlichkeitsmaß (cosine similarity) den aktuellen Stand der Technik für Bildabrufung.