HyperAIHyperAI
vor 2 Monaten

Kooperationsgruppe: Bildretrieval durch konsensbasiertes Lernen aus verrauschten Annotationen

Zhang, Xu ; Zheng, Zhedong ; Zhu, Linchao ; Yang, Yi
Kooperationsgruppe: Bildretrieval durch konsensbasiertes Lernen aus verrauschten Annotationen
Abstract

Kompositionsbasierte Bildsuche erweitert inhaltsbasierte Bildretrieval-Systeme, indem sie Benutzern ermöglicht, mit Referenzbildern und dazugehörigen Beschreibungen zu suchen, die ihre Absicht wiedergeben. Trotz großer Fortschritte bei der Entwicklung von Bild-Text-Kompositoren zur Extraktion diskriminativer visueller und linguistischer Merkmale haben wir ein bisher übersehenes Problem identifiziert: die Tripletten-Unklarheit, die eine robuste Merkmalsextraktion behindert. Die Tripletten-Unklarheit bezieht sich auf eine Art semantische Unklarheit, die zwischen dem Referenzbild, der zugehörigen Beschreibung und dem Zielbild entsteht. Sie ist hauptsächlich auf die begrenzte Darstellung des annotierten Textes zurückzuführen, was zu vielen störenden Tripletten führt, bei denen mehrere visuell unähnliche Kandidatenbilder einem identischen Referenzpaar (d.h., ein Referenzbild + eine zugehörige Beschreibung) zugeordnet werden können. Um dieser Herausforderung gerecht zu werden, schlagen wir das Konsensnetzwerk (Consensus Network, Css-Net) vor, inspiriert durch das psychologische Konzept, dass Gruppen Individuen überlegen sind. Das Css-Net besteht aus zwei Kernkomponenten: (1) einem Konsensmodul mit vier verschiedenen Kompositoren, von denen jeder unterschiedliche Bild-Text-Einbettungen generiert und so ergänzende Merkmalsextraktion fördert sowie die Abhängigkeit von einem einzelnen, potenziell verfälschten Kompositor verringert; (2) einer Kullback-Leibler-Divergenz-Loss-Funktion, die das Lernen von Interaktionen zwischen den Kompositoren fördert und konsensuale Ausgaben unterstützt. Während der Bewertung werden die Entscheidungen der vier Kompositoren durch ein Gewichtungsverfahren kombiniert, um die allgemeine Übereinstimmung zu verbessern. In Benchmarks-Datensätzen, insbesondere im FashionIQ-Datensatz, zeigt das Css-Net erhebliche Verbesserungen. Bemerkenswerterweise erreicht es signifikante Erhöhungen des Recall-Werts mit einer Steigerung von 2,77 % im R@10 und 6,67 % im R@50, was seine Wettbewerbsfähigkeit bei der Bewältigung grundlegender Einschränkungen bestehender Methoden unterstreicht.

Kooperationsgruppe: Bildretrieval durch konsensbasiertes Lernen aus verrauschten Annotationen | Neueste Forschungsarbeiten | HyperAI