HyperAIHyperAI

Command Palette

Search for a command to run...

Console
il y a un jour

SSRB : Interrogation directe en langage naturel de grandes quantités de données semi-structurées hétérogènes

SSRB : Interrogation directe en langage naturel de grandes quantités de données semi-structurées hétérogènes

Résumé

La recherche dans des données semi-structurées à l’aide de requêtes naturelles (NL) suscite un intérêt soutenu, permettant à un public plus large d’accéder facilement à l’information. Avec l’émergence croissante d’applications telles que les agents LLM et les systèmes RAG, chargés de rechercher et d’interagir avec des données semi-structurées, deux défis majeurs se sont révélés : (1) la diversité croissante des domaines et les variations de schémas, rendant les solutions sur mesure pour chaque domaine prohibitivement coûteuses ; (2) la complexité croissante des requêtes naturelles, qui combinent à la fois des conditions de correspondance exacte sur des champs spécifiques et des exigences sémantiques floues, souvent impliquant plusieurs champs et des raisonnements implicites. Ces défis rendent les approches basées sur des langages formels ou la recherche par mots-clés insuffisantes. Dans ce travail, nous explorons les rétenteurs neuronaux comme une solution unifiée non formelle, en indexant directement les collections semi-structurées et en comprenant les requêtes naturelles. Nous utilisons une évaluation automatique basée sur les LLM et construisons un grand benchmark de recherche semi-structurée (SSRB) à l’aide de génération et de filtrage par LLM, comprenant 14 millions d’objets semi-structurés issus de 99 schémas différents répartis sur 6 domaines, ainsi que 8 485 requêtes de test combinant conditions de correspondance exacte et floue. Notre évaluation systématique des rétenteurs populaires montre que les modèles les plus performants actuellement atteignent des résultats acceptables, mais qu’ils manquent encore d’une compréhension précise des contraintes de correspondance. Toutefois, une entraînement spécialisé dans le domaine (in-domain training) des rétenteurs denses permet d’améliorer significativement les performances. Nous pensons que notre benchmark SSRB pourra constituer une ressource précieuse pour les recherches futures dans ce domaine, et espérons inspirer davantage d’explorations dans la recherche de données semi-structurées à l’aide de requêtes complexes.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp