HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole
vor einem Tag

SSRB: Direkte Abfrage natürlicher Sprache für große heterogene semi-strukturierte Daten

SSRB: Direkte Abfrage natürlicher Sprache für große heterogene semi-strukturierte Daten

Abstract

Die Suche in semi-strukturierten Daten mittels natürlicher Sprache (NL) hat kontinuierlich an Aufmerksamkeit gewonnen und ermöglicht es einer breiteren Nutzergruppe, problemlos auf Informationen zuzugreifen. Mit der zunehmenden Zahl an Anwendungen – beispielsweise LLM-Agenten und RAG-Systeme –, die zur Suche und Interaktion mit semi-strukturierten Daten eingesetzt werden, sind zwei zentrale Herausforderungen deutlich geworden: (1) Die wachsende Vielfalt an Domänen und die damit einhergehenden Schema-Variationen machen domänen-spezifische Lösungen oft prohibitiv teuer; (2) Die steigende Komplexität natürlicher Sprachabfragen, die sowohl exakte Feldabgleichsbedingungen als auch vage semantische Anforderungen kombinieren, oft über mehrere Felder hinweg und implizite Schlussfolgerungen erfordern, übersteigt die Fähigkeiten herkömmlicher formaler Abfragesprachen oder keyword-basierter Suchverfahren. In dieser Arbeit untersuchen wir neuronale Retriever als einheitliche, nicht-formale Abfragemethode, die semi-strukturierte Sammlungen direkt indiziert und natürliche Sprachabfragen versteht. Wir nutzen LLM-basierte automatische Bewertung und erstellen einen großskaligen Benchmark für die semi-strukturierte Recherche (SSRB), der mithilfe von LLM-Generierung und -Filterung entstanden ist und 14 Millionen semi-strukturierte Objekte aus 99 unterschiedlichen Schemata in sechs verschiedenen Domänen umfasst, sowie 8.485 Testabfragen, die sowohl exakte als auch vage Abgleichbedingungen kombinieren. Unsere systematische Evaluation gängiger Retriever zeigt, dass aktuelle State-of-the-Art-Modelle akzeptable Leistungen erzielen können, dennoch aber weiterhin eine präzise Verarbeitung von Abgleichbedingungen vermissen. Durch eine domäneninterne Trainingsstrategie für dichte Retriever lässt sich die Leistung jedoch erheblich verbessern. Wir sind überzeugt, dass unser SSRB eine wertvolle Ressource für zukünftige Forschung in diesem Bereich darstellt, und hoffen, damit die weitere Erforschung der semi-strukturierten Recherche mit komplexen Abfragen zu fördern.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp