SSRB: Direkte Abfrage natürlicher Sprache für große heterogene semi-strukturierte Daten
SSRB: Direkte Abfrage natürlicher Sprache für große heterogene semi-strukturierte Daten

Abstract
Die Suche in semi-strukturierten Daten mittels natürlicher Sprache (NL) hat kontinuierlich an Aufmerksamkeit gewonnen und ermöglicht es einer breiteren Nutzergruppe, problemlos auf Informationen zuzugreifen. Mit der zunehmenden Zahl an Anwendungen – beispielsweise LLM-Agenten und RAG-Systeme –, die zur Suche und Interaktion mit semi-strukturierten Daten eingesetzt werden, sind zwei zentrale Herausforderungen deutlich geworden: (1) Die wachsende Vielfalt an Domänen und die damit einhergehenden Schema-Variationen machen domänen-spezifische Lösungen oft prohibitiv teuer; (2) Die steigende Komplexität natürlicher Sprachabfragen, die sowohl exakte Feldabgleichsbedingungen als auch vage semantische Anforderungen kombinieren, oft über mehrere Felder hinweg und implizite Schlussfolgerungen erfordern, übersteigt die Fähigkeiten herkömmlicher formaler Abfragesprachen oder keyword-basierter Suchverfahren. In dieser Arbeit untersuchen wir neuronale Retriever als einheitliche, nicht-formale Abfragemethode, die semi-strukturierte Sammlungen direkt indiziert und natürliche Sprachabfragen versteht. Wir nutzen LLM-basierte automatische Bewertung und erstellen einen großskaligen Benchmark für die semi-strukturierte Recherche (SSRB), der mithilfe von LLM-Generierung und -Filterung entstanden ist und 14 Millionen semi-strukturierte Objekte aus 99 unterschiedlichen Schemata in sechs verschiedenen Domänen umfasst, sowie 8.485 Testabfragen, die sowohl exakte als auch vage Abgleichbedingungen kombinieren. Unsere systematische Evaluation gängiger Retriever zeigt, dass aktuelle State-of-the-Art-Modelle akzeptable Leistungen erzielen können, dennoch aber weiterhin eine präzise Verarbeitung von Abgleichbedingungen vermissen. Durch eine domäneninterne Trainingsstrategie für dichte Retriever lässt sich die Leistung jedoch erheblich verbessern. Wir sind überzeugt, dass unser SSRB eine wertvolle Ressource für zukünftige Forschung in diesem Bereich darstellt, und hoffen, damit die weitere Erforschung der semi-strukturierten Recherche mit komplexen Abfragen zu fördern.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.