HyperAIHyperAI

Command Palette

Search for a command to run...

Combien de raisonnement les modèles améliorés par récupération ajoutent-ils au-delà des LLM ? Un cadre d’évaluation pour l’inférence multi-sauts sur des connaissances hybrides

Junhong Lin Bing Zhang Song Wang Ziyan Liu Dan Gutfreund Julian Shun Yada Zhu

Résumé

Les grands modèles linguistiques (LLM) peinent encore à répondre à des questions exigeant des connaissances pointues, des informations à jour et des raisonnements à plusieurs étapes. L’ajout de connaissances externes hybrides — telles que des textes non structurés et des graphes de connaissances structurés — aux LLM représente une alternative prometteuse à la pré-entraînement continu coûteux. En conséquence, l’évaluation fiable de leurs capacités de récupération et de raisonnement devient cruciale. Toutefois, de nombreux benchmarks existants présentent une surcharge croissante avec les données d’entraînement préalable des LLM, ce qui signifie que les réponses ou les connaissances de soutien pourraient déjà être encodées dans les paramètres du modèle, rendant difficile la distinction entre une récupération réelle et un rappel paramétrique. Nous introduisons HybridRAG-Bench, un cadre permettant de concevoir des benchmarks pour évaluer la récupération intensive et le raisonnement à plusieurs étapes sur des connaissances hybrides. HybridRAG-Bench couplage automatiquement des représentations de textes non structurés et de graphes de connaissances structurés extraits de publications scientifiques récentes publiées sur arXiv, et génère des paires question-réponse fondées sur des chemins de raisonnement explicites. Ce cadre permet une sélection flexible des domaines et des périodes temporelles, offrant ainsi une évaluation adaptable et consciente de la contamination au fil de l’évolution des modèles et des connaissances. Des expériences menées sur trois domaines (intelligence artificielle, gouvernance et politique, bioinformatique) démontrent que HybridRAG-Bench récompense effectivement la récupération et le raisonnement authentiques plutôt que le rappel paramétrique, offrant ainsi un terrain d’évaluation rigoureux pour les systèmes de raisonnement augmentés par des connaissances hybrides. Nous mettons à disposition notre code et nos données à l’adresse github.com/junhongmit/HybridRAG-Bench.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Combien de raisonnement les modèles améliorés par récupération ajoutent-ils au-delà des LLM ? Un cadre d’évaluation pour l’inférence multi-sauts sur des connaissances hybrides | Articles | HyperAI