vor 7 Monaten

Xin Zhang Mingxin Li Yanzhao Zhang Dingkun Long Yongqi Li Yinghui Li Pengjun Xie Meishan Zhang Wenjie Li Min Zhang

Zusammenfassung

Die Suche in semi-strukturierten Daten mittels natürlicher Sprache (NL) hat kontinuierlich an Aufmerksamkeit gewonnen und ermöglicht es einer breiteren Nutzergruppe, problemlos auf Informationen zuzugreifen. Mit der zunehmenden Zahl an Anwendungen – beispielsweise LLM-Agenten und RAG-Systeme –, die zur Suche und Interaktion mit semi-strukturierten Daten eingesetzt werden, sind zwei zentrale Herausforderungen deutlich geworden: (1) Die wachsende Vielfalt an Domänen und die damit einhergehenden Schema-Variationen machen domänen-spezifische Lösungen oft prohibitiv teuer; (2) Die steigende Komplexität natürlicher Sprachabfragen, die sowohl exakte Feldabgleichsbedingungen als auch vage semantische Anforderungen kombinieren, oft über mehrere Felder hinweg und implizite Schlussfolgerungen erfordern, übersteigt die Fähigkeiten herkömmlicher formaler Abfragesprachen oder keyword-basierter Suchverfahren. In dieser Arbeit untersuchen wir neuronale Retriever als einheitliche, nicht-formale Abfragemethode, die semi-strukturierte Sammlungen direkt indiziert und natürliche Sprachabfragen versteht. Wir nutzen LLM-basierte automatische Bewertung und erstellen einen großskaligen Benchmark für die semi-strukturierte Recherche (SSRB), der mithilfe von LLM-Generierung und -Filterung entstanden ist und 14 Millionen semi-strukturierte Objekte aus 99 unterschiedlichen Schemata in sechs verschiedenen Domänen umfasst, sowie 8.485 Testabfragen, die sowohl exakte als auch vage Abgleichbedingungen kombinieren. Unsere systematische Evaluation gängiger Retriever zeigt, dass aktuelle State-of-the-Art-Modelle akzeptable Leistungen erzielen können, dennoch aber weiterhin eine präzise Verarbeitung von Abgleichbedingungen vermissen. Durch eine domäneninterne Trainingsstrategie für dichte Retriever lässt sich die Leistung jedoch erheblich verbessern. Wir sind überzeugt, dass unser SSRB eine wertvolle Ressource für zukünftige Forschung in diesem Bereich darstellt, und hoffen, damit die weitere Erforschung der semi-strukturierten Recherche mit komplexen Abfragen zu fördern.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Auf Discord diskutieren

vor 7 Monaten

Retrieval-Augmented Generation

Natürliche Sprachverarbeitung

Datensatz

Xin Zhang Mingxin Li Yanzhao Zhang Dingkun Long Yongqi Li Yinghui Li Pengjun Xie Meishan Zhang Wenjie Li Min Zhang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Auf Discord diskutieren

vor 7 Monaten

Retrieval-Augmented Generation

Natürliche Sprachverarbeitung

Datensatz

Xin Zhang Mingxin Li Yanzhao Zhang Dingkun Long Yongqi Li Yinghui Li Pengjun Xie Meishan Zhang Wenjie Li Min Zhang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

SSRB: Direkte Abfrage natürlicher Sprache für große heterogene semi-strukturierte Daten

Xin Zhang Mingxin Li Yanzhao Zhang Dingkun Long Yongqi Li Yinghui Li Pengjun Xie Meishan Zhang Wenjie Li Min Zhang1 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

SSRB: Direkte Abfrage natürlicher Sprache für große heterogene semi-strukturierte Daten

Xin Zhang Mingxin Li Yanzhao Zhang Dingkun Long Yongqi Li Yinghui Li Pengjun Xie Meishan Zhang Wenjie Li Min Zhang1 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

SSRB: Direkte Abfrage natürlicher Sprache für große heterogene semi-strukturierte Daten

Xin Zhang Mingxin Li Yanzhao Zhang Dingkun Long Yongqi Li Yinghui Li Pengjun Xie Meishan Zhang Wenjie Li Min Zhang1 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Xin Zhang Mingxin Li Yanzhao Zhang Dingkun Long Yongqi Li Yinghui Li Pengjun Xie Meishan Zhang Wenjie Li Min Zhang

Xin Zhang Mingxin Li Yanzhao Zhang Dingkun Long Yongqi Li Yinghui Li Pengjun Xie Meishan Zhang Wenjie Li Min Zhang

Xin Zhang Mingxin Li Yanzhao Zhang Dingkun Long Yongqi Li Yinghui Li Pengjun Xie Meishan Zhang Wenjie Li Min Zhang