Command Palette
Search for a command to run...
Combien de raisonnement les modèles améliorés par récupération ajoutent-ils au-delà des LLM ? Un cadre d’évaluation pour l’inférence multi-sauts sur des connaissances hybrides
Combien de raisonnement les modèles améliorés par récupération ajoutent-ils au-delà des LLM ? Un cadre d’évaluation pour l’inférence multi-sauts sur des connaissances hybrides
Junhong Lin Bing Zhang Song Wang Ziyan Liu Dan Gutfreund Julian Shun Yada Zhu
Résumé
Les grands modèles linguistiques (LLM) peinent encore à répondre à des questions exigeant des connaissances pointues, des informations à jour et des raisonnements à plusieurs étapes. L’ajout de connaissances externes hybrides — telles que des textes non structurés et des graphes de connaissances structurés — aux LLM représente une alternative prometteuse à la pré-entraînement continu coûteux. En conséquence, l’évaluation fiable de leurs capacités de récupération et de raisonnement devient cruciale. Toutefois, de nombreux benchmarks existants présentent une surcharge croissante avec les données d’entraînement préalable des LLM, ce qui signifie que les réponses ou les connaissances de soutien pourraient déjà être encodées dans les paramètres du modèle, rendant difficile la distinction entre une récupération réelle et un rappel paramétrique. Nous introduisons HybridRAG-Bench, un cadre permettant de concevoir des benchmarks pour évaluer la récupération intensive et le raisonnement à plusieurs étapes sur des connaissances hybrides. HybridRAG-Bench couplage automatiquement des représentations de textes non structurés et de graphes de connaissances structurés extraits de publications scientifiques récentes publiées sur arXiv, et génère des paires question-réponse fondées sur des chemins de raisonnement explicites. Ce cadre permet une sélection flexible des domaines et des périodes temporelles, offrant ainsi une évaluation adaptable et consciente de la contamination au fil de l’évolution des modèles et des connaissances. Des expériences menées sur trois domaines (intelligence artificielle, gouvernance et politique, bioinformatique) démontrent que HybridRAG-Bench récompense effectivement la récupération et le raisonnement authentiques plutôt que le rappel paramétrique, offrant ainsi un terrain d’évaluation rigoureux pour les systèmes de raisonnement augmentés par des connaissances hybrides. Nous mettons à disposition notre code et nos données à l’adresse github.com/junhongmit/HybridRAG-Bench.