Modebildabfrage mit multi-granularer Ausrichtung

Die Aufgabe der Modebildabfrage zielt darauf ab, relevante Kleidungsstücke eines Abfragebildes aus einer Galerie zu finden. Bisherige Ansätze konzentrieren sich darauf, unterschiedliche abstandsbezogene Verlustfunktionen zu entwerfen, um relevante Bildpaare näher zueinander zu ziehen und irrelevante Bilder voneinander zu entfernen. Diese Methoden ignorieren jedoch feinmaschige Merkmale von Kleidungsbildern, wie beispielsweise Kragenform oder Ärmelabschluss. In diesem Artikel stellen wir eine neuartige Methode zur Modebildabfrage vor, die sowohl globale als auch feinmaschige Merkmale nutzt und als Multi-Granular Alignment (MGA) bezeichnet wird. Konkret entwerfen wir einen Fine-Granular Aggregator (FGA), um detaillierte Muster zu erfassen und zu aggregieren. Anschließend schlagen wir eine attentionsbasierte Token-Alignment-Methode (ATA) vor, um Bildmerkmale auf mehreren Granularitätsstufen auf eine grob-zu-fein-orientierte Weise auszurichten. Um die Wirksamkeit unseres Ansatzes zu belegen, führen wir Experimente auf zwei Teil-Aufgaben (In-Shop und Consumer2Shop) des öffentlichen Mode-Datensatzes DeepFashion durch. Die experimentellen Ergebnisse zeigen, dass unsere MGA-Methodik die Stand-of-the-Art-Methoden jeweils um 1,8 % und 0,6 % im R@1-Maß auf den beiden Teil-Aufgaben übertrifft.