MILDNet: Eine leichtgewichtige, einstufige Deep-Ranking-Architektur

Die Multi-Skalige Deep-CNN-Architektur [1, 2, 3] erfasst erfolgreich sowohl feine als auch grobe Bildbeschreibungen für die visuelle Ähnlichkeitsaufgabe, führt jedoch zu hohen Speicher- und Latenzkosten. In dieser Arbeit schlagen wir eine konkurrierende neue CNN-Architektur vor, die MILDNet genannt wird und sich durch ihre kompakte Struktur (ca. dreimal kleiner) auszeichnet. Inspiriert von der Tatsache, dass aufeinanderfolgende CNN-Schichten das Bild mit steigenden Abstraktionsniveaus darstellen, haben wir unser tiefes Rangierungsmodell in ein einzelnes CNN komprimiert, indem wir Aktivierungen aus mehreren Zwischenschichten zusammen mit der letzten Schicht verknüpft haben. Trainiert auf dem bekannten Street2Shop-Datensatz [4], zeigen wir, dass unser Ansatz den Leistungen der aktuellen Stand-of-the-Art-Modelle entspricht, aber nur ein Drittel der Parameter, des Modellumfangs, der Trainingszeit und eine signifikante Reduzierung der Inferenzzeit benötigt. Die Bedeutung von Zwischenschichten bei der Bildsuche wurde auch anhand populärer Datensätze wie Holidays, Oxford und Paris [5] nachgewiesen. Obwohl unsere Experimente im E-Commerce-Bereich durchgeführt wurden, ist die Architektur auch für andere Bereiche anwendbar. Wir haben zudem eine Ablationsstudie durchgeführt, um unsere Hypothese zu überprüfen und den Einfluss des Hinzufügens jeder Zwischenschicht zu untersuchen. Hierbei präsentieren wir zwei weitere nützliche Varianten von MILDNet: ein mobiles Modell (12-mal kleiner) für Edge-Geräte und ein modifiziertes Modell mit kompakten Merkmalsrepräsentationen (512-dimensionale Feature-Embeddings) für Systeme mit geringem RAM und zur Reduzierung der Rangierungskosten. Darüber hinaus stellen wir eine intuitive Methode vor, um automatisch einen maßgeschneiderten internen Tripletten-Trainingsdatensatz zu erstellen, was manuell sehr schwierig ist. Diese Lösung kann ebenfalls als umfassendes System für visuelle Ähnlichkeit eingesetzt werden. Abschließend präsentieren wir unsere gesamte Produktionsarchitektur, die aktuell die visuelle Ähnlichkeitsfunktion bei Fynd betreibt.