HyperAIHyperAI
vor 9 Tagen

Abbildung 1: Überblick über das vorgeschlagene Framework für die Kreuzmodalitätssuche mit Querybank-Normalisierung. Das System besteht aus drei Hauptkomponenten: (1) einer Querybank, die aus einer Sammlung von semantisch relevanten Fragen besteht; (2) einem LLM-basierten Relevanzbewertungsmodell, das die semantische Ähnlichkeit zwischen der Benutzeranfrage und den Fragen in der Querybank misst; und (3) einem Retrieval-Modul, das die am besten passenden Dokumente aus der Datenbank basierend auf den bewerteten Ähnlichkeiten zurückgibt. Die Querybank-Normalisierung sorgt dafür, dass die Fragen in der Querybank konsistent und semantisch klar strukturiert sind, wodurch die Genauigkeit und Robustheit des Retrieval-Prozesses erhöht wird.

Simion-Vlad Bogolin, Ioana Croitoru, Hailin Jin, Yang Liu, Samuel Albanie
Abbildung 1: Überblick über das vorgeschlagene Framework für die Kreuzmodalitätssuche mit Querybank-Normalisierung. Das System besteht aus drei Hauptkomponenten: (1) einer Querybank, die aus einer Sammlung von semantisch relevanten Fragen besteht; (2) einem LLM-basierten Relevanzbewertungsmodell, das die semantische Ähnlichkeit zwischen der Benutzeranfrage und den Fragen in der Querybank misst; und (3) einem Retrieval-Modul, das die am besten passenden Dokumente aus der Datenbank basierend auf den bewerteten Ähnlichkeiten zurückgibt. Die Querybank-Normalisierung sorgt dafür, dass die Fragen in der Querybank konsistent und semantisch klar strukturiert sind, wodurch die Genauigkeit und Robustheit des Retrieval-Prozesses erhöht wird.
Abstract

Durch die Nutzung großskaliger Trainingsdatensätze, Fortschritte in der Gestaltung neuronaler Architekturen sowie effizienter Inferenz sind gemeinsame Einbettungen (joint embeddings) zur dominierenden Methode für die cross-modal Retrieval-Aufgabe geworden. In dieser Arbeit zeigen wir zunächst, dass trotz ihrer Wirksamkeit state-of-the-art gemeinsame Einbettungen erheblich unter dem lang bestehenden „Hubness-Problem“ leiden, bei dem eine kleine Anzahl von Gallery-Einbettungen als nächstgelegene Nachbarn für viele Abfragen fungiert. Inspiriert durch die Literatur aus dem Bereich der natürlichen Sprachverarbeitung (NLP) formulieren wir einen einfachen, aber wirksamen Ansatz namens Querybank Normalisation (QB-Norm), der die Ähnlichkeitsmaße der Abfragen neu skaliert, um die Existenz von „Hubs“ im Einbettungsraum zu berücksichtigen. QB-Norm verbessert die Retrieval-Leistung ohne die Notwendigkeit einer erneuten Trainingsphase. Im Gegensatz zu vorherigen Ansätzen zeigen wir, dass QB-Norm effektiv funktioniert, ohne gleichzeitigen Zugriff auf Testabfragen zu benötigen. Innerhalb des QB-Norm-Rahmens stellen wir außerdem eine neuartige Methode zur Ähnlichkeitsnormalisierung vor, die Dynamic Inverted Softmax, die signifikant robuster als bestehende Ansätze ist. Wir demonstrieren die Wirksamkeit von QB-Norm an einer Vielzahl von cross-modal Retrieval-Modellen und Benchmarks, wo es konsistent starke Baselines über das aktuelle Stand der Technik hinaus verbessert. Der Quellcode ist unter https://vladbogo.github.io/QB-Norm/ verfügbar.

Abbildung 1: Überblick über das vorgeschlagene Framework für die Kreuzmodalitätssuche mit Querybank-Normalisierung. Das System besteht aus drei Hauptkomponenten: (1) einer Querybank, die aus einer Sammlung von semantisch relevanten Fragen besteht; (2) einem LLM-basierten Relevanzbewertungsmodell, das die semantische Ähnlichkeit zwischen der Benutzeranfrage und den Fragen in der Querybank misst; und (3) einem Retrieval-Modul, das die am besten passenden Dokumente aus der Datenbank basierend auf den bewerteten Ähnlichkeiten zurückgibt. Die Querybank-Normalisierung sorgt dafür, dass die Fragen in der Querybank konsistent und semantisch klar strukturiert sind, wodurch die Genauigkeit und Robustheit des Retrieval-Prozesses erhöht wird. | Neueste Forschungsarbeiten | HyperAI