vor 12 Tagen

SitEmb-v1.5: Verbesserte kontextbewusste dichte Recherche für semantische Assoziation und Verständnis langer Geschichten

Junjie Wu, Jiangnan Li, Yuqing Li, Lemao Liu, Liyan Xu, Jiwei Li, Dit-Yan Yeung, Jie Zhou, Mo Yu

Abstract

Die Retrieval-augmented Generation (RAG) bei langen Dokumenten erfordert typischerweise eine Aufteilung des Textes in kleinere Abschnitte, die als grundlegende Einheiten für die Suche dienen. Aufgrund von Abhängigkeiten innerhalb des ursprünglichen Dokuments ist jedoch kontextuelle Information oft entscheidend, um jeden Abschnitt präzise zu interpretieren. Um diesem Problem entgegenzuwirken, haben frühere Arbeiten versucht, längere Kontextfenster zu kodieren, um Embeddings für längere Abschnitte zu erzeugen. Trotz dieser Bemühungen bleiben die Verbesserungen bei der Suche und in nachgeschalteten Aufgaben jedoch begrenzt. Dies liegt an zwei Hauptgründen: Erstens belasten längere Abschnitte die Kapazität von Embedding-Modellen aufgrund der größeren Menge an zu kodierenden Informationen, und zweitens erfordern viele Anwendungen in der Praxis weiterhin die Rückgabe lokalisierten Beweismaterials, bedingt durch Beschränkungen der Modell- oder menschlichen Bandbreite.Wir schlagen einen alternativen Ansatz vor, bei dem kurze Abschnitte so repräsentiert werden, dass sie auf einem umfassenderen Kontextfenster basieren, um die Suchleistung zu verbessern – also die Bedeutung eines Abschnitts in seinen Kontext einzuordnen. Wir zeigen weiterhin, dass bestehende Embedding-Modelle nicht gut gerüstet sind, um einen solchen kontextuell eingebetteten Informationsgehalt effektiv zu kodieren. Daher führen wir ein neues Trainingsparadigma ein und entwickeln sogenannte situierte Embedding-Modelle (SitEmb). Zur Evaluation unserer Methode haben wir eine speziell für die Bewertung der Fähigkeit zur kontextuellen Suche konzipierte Datensammlung aus Buchhandlungen zusammengestellt. Auf diesem Benchmark erreicht unser SitEmb-v1-Modell auf Basis von BGE-M3 die Leistung von State-of-the-Art-Embedding-Modellen – darunter mehrere mit bis zu 7–8 Milliarden Parametern – mit lediglich 1 Milliarde Parametern deutlich überlegen. Das 8-Milliarden-Parameter-Modell SitEmb-v1.5 steigert die Leistung zudem um über 10 % und zeigt starke Ergebnisse über mehrere Sprachen sowie in verschiedenen nachgeschalteten Anwendungen.