HyperAIHyperAI

Command Palette

Search for a command to run...

Abbildung 1: Überblick über das vorgeschlagene Framework für die Kreuzmodalitätssuche mit Querybank-Normalisierung. Das System besteht aus drei Hauptkomponenten: (1) einer Querybank, die aus einer Sammlung von semantisch relevanten Fragen besteht; (2) einem LLM-basierten Relevanzbewertungsmodell, das die semantische Ähnlichkeit zwischen der Benutzeranfrage und den Fragen in der Querybank misst; und (3) einem Retrieval-Modul, das die am besten passenden Dokumente aus der Datenbank basierend auf den bewerteten Ähnlichkeiten zurückgibt. Die Querybank-Normalisierung sorgt dafür, dass die Fragen in der Querybank konsistent und semantisch klar strukturiert sind, wodurch die Genauigkeit und Robustheit des Retrieval-Prozesses erhöht wird.

Simion-Vlad Bogolin Ioana Croitoru Hailin Jin Yang Liu Samuel Albanie

Zusammenfassung

Durch die Nutzung großskaliger Trainingsdatensätze, Fortschritte in der Gestaltung neuronaler Architekturen sowie effizienter Inferenz sind gemeinsame Einbettungen (joint embeddings) zur dominierenden Methode für die cross-modal Retrieval-Aufgabe geworden. In dieser Arbeit zeigen wir zunächst, dass trotz ihrer Wirksamkeit state-of-the-art gemeinsame Einbettungen erheblich unter dem lang bestehenden „Hubness-Problem“ leiden, bei dem eine kleine Anzahl von Gallery-Einbettungen als nächstgelegene Nachbarn für viele Abfragen fungiert. Inspiriert durch die Literatur aus dem Bereich der natürlichen Sprachverarbeitung (NLP) formulieren wir einen einfachen, aber wirksamen Ansatz namens Querybank Normalisation (QB-Norm), der die Ähnlichkeitsmaße der Abfragen neu skaliert, um die Existenz von „Hubs“ im Einbettungsraum zu berücksichtigen. QB-Norm verbessert die Retrieval-Leistung ohne die Notwendigkeit einer erneuten Trainingsphase. Im Gegensatz zu vorherigen Ansätzen zeigen wir, dass QB-Norm effektiv funktioniert, ohne gleichzeitigen Zugriff auf Testabfragen zu benötigen. Innerhalb des QB-Norm-Rahmens stellen wir außerdem eine neuartige Methode zur Ähnlichkeitsnormalisierung vor, die Dynamic Inverted Softmax, die signifikant robuster als bestehende Ansätze ist. Wir demonstrieren die Wirksamkeit von QB-Norm an einer Vielzahl von cross-modal Retrieval-Modellen und Benchmarks, wo es konsistent starke Baselines über das aktuelle Stand der Technik hinaus verbessert. Der Quellcode ist unter https://vladbogo.github.io/QB-Norm/ verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp