HyperAI
il y a 7 jours

RAVine : Évaluation alignée sur la réalité pour la recherche agente

Yilong Xu; Xiang Long; Zhi Zheng; Jinhua Gao
RAVine : Évaluation alignée sur la réalité pour la recherche agente
Résumé

La recherche agente, en tant que paradigme plus autonome et adaptable de l'augmentation de la récupération, est en train de transformer les systèmes de recherche intelligents. Cependant, les cadres d'évaluation existants ne s'alignent pas bien avec les objectifs de la recherche agente. Premièrement, les requêtes complexes couramment utilisées dans les benchmarks actuels s'écartent souvent des scénarios réels de recherche des utilisateurs. Deuxièmement, les approches antérieures ont tendance à introduire du bruit lors de l'extraction des vérités de base pour les évaluations end-to-end, entraînant des évaluations déformées à un niveau fin. Troisièmement, la plupart des cadres actuels se concentrent uniquement sur la qualité des réponses finales, négligeant l'évaluation du processus itératif intrinsèque à la recherche agente. Pour surmonter ces limites, nous proposons RAVine — un cadre d'évaluation (eValuation) aligné sur la réalité pour les modèles de langage à grande échelle (LLMs) utilisant la recherche. RAVine cible les requêtes à plusieurs points et les réponses de longue forme, qui reflètent mieux les intentions des utilisateurs, et introduit une stratégie de construction de vérité de base attribuable afin d'améliorer la précision de l'évaluation à un niveau fin. De plus, RAVine examine l'interaction du modèle avec les outils de recherche au cours du processus itératif, et tient compte des facteurs liés à l'efficacité. Nous avons benchmarké une série de modèles à l'aide de RAVine et tiré plusieurs conclusions, que nous espérons contribueront à l'avancement du développement des systèmes de recherche agente. Le code et les jeux de données sont disponibles à l'adresse https://github.com/SwordFaith/RAVine.