HyperAIHyperAI

Command Palette

Search for a command to run...

Kooperationsgruppe: Bildretrieval durch konsensbasiertes Lernen aus verrauschten Annotationen

Xu Zhang Zhedong Zheng Linchao Zhu Yi Yang

Zusammenfassung

Kompositionsbasierte Bildsuche erweitert inhaltsbasierte Bildretrieval-Systeme, indem sie Benutzern ermöglicht, mit Referenzbildern und dazugehörigen Beschreibungen zu suchen, die ihre Absicht wiedergeben. Trotz großer Fortschritte bei der Entwicklung von Bild-Text-Kompositoren zur Extraktion diskriminativer visueller und linguistischer Merkmale haben wir ein bisher übersehenes Problem identifiziert: die Tripletten-Unklarheit, die eine robuste Merkmalsextraktion behindert. Die Tripletten-Unklarheit bezieht sich auf eine Art semantische Unklarheit, die zwischen dem Referenzbild, der zugehörigen Beschreibung und dem Zielbild entsteht. Sie ist hauptsächlich auf die begrenzte Darstellung des annotierten Textes zurückzuführen, was zu vielen störenden Tripletten führt, bei denen mehrere visuell unähnliche Kandidatenbilder einem identischen Referenzpaar (d.h., ein Referenzbild + eine zugehörige Beschreibung) zugeordnet werden können. Um dieser Herausforderung gerecht zu werden, schlagen wir das Konsensnetzwerk (Consensus Network, Css-Net) vor, inspiriert durch das psychologische Konzept, dass Gruppen Individuen überlegen sind. Das Css-Net besteht aus zwei Kernkomponenten: (1) einem Konsensmodul mit vier verschiedenen Kompositoren, von denen jeder unterschiedliche Bild-Text-Einbettungen generiert und so ergänzende Merkmalsextraktion fördert sowie die Abhängigkeit von einem einzelnen, potenziell verfälschten Kompositor verringert; (2) einer Kullback-Leibler-Divergenz-Loss-Funktion, die das Lernen von Interaktionen zwischen den Kompositoren fördert und konsensuale Ausgaben unterstützt. Während der Bewertung werden die Entscheidungen der vier Kompositoren durch ein Gewichtungsverfahren kombiniert, um die allgemeine Übereinstimmung zu verbessern. In Benchmarks-Datensätzen, insbesondere im FashionIQ-Datensatz, zeigt das Css-Net erhebliche Verbesserungen. Bemerkenswerterweise erreicht es signifikante Erhöhungen des Recall-Werts mit einer Steigerung von 2,77 % im R@10 und 6,67 % im R@50, was seine Wettbewerbsfähigkeit bei der Bewältigung grundlegender Einschränkungen bestehender Methoden unterstreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Kooperationsgruppe: Bildretrieval durch konsensbasiertes Lernen aus verrauschten Annotationen | Paper | HyperAI