HyperAIHyperAI

Command Palette

Search for a command to run...

RAVine : Évaluation alignée sur la réalité pour la recherche agente

Yilong Xu Xiang Long Zhi Zheng Jinhua Gao

Résumé

La recherche agente, en tant que paradigme plus autonome et adaptable de l'augmentation de la récupération, est en train de transformer les systèmes de recherche intelligents. Cependant, les cadres d'évaluation existants ne s'alignent pas bien avec les objectifs de la recherche agente. Premièrement, les requêtes complexes couramment utilisées dans les benchmarks actuels s'écartent souvent des scénarios réels de recherche des utilisateurs. Deuxièmement, les approches antérieures ont tendance à introduire du bruit lors de l'extraction des vérités de base pour les évaluations end-to-end, entraînant des évaluations déformées à un niveau fin. Troisièmement, la plupart des cadres actuels se concentrent uniquement sur la qualité des réponses finales, négligeant l'évaluation du processus itératif intrinsèque à la recherche agente. Pour surmonter ces limites, nous proposons RAVine — un cadre d'évaluation (eValuation) aligné sur la réalité pour les modèles de langage à grande échelle (LLMs) utilisant la recherche. RAVine cible les requêtes à plusieurs points et les réponses de longue forme, qui reflètent mieux les intentions des utilisateurs, et introduit une stratégie de construction de vérité de base attribuable afin d'améliorer la précision de l'évaluation à un niveau fin. De plus, RAVine examine l'interaction du modèle avec les outils de recherche au cours du processus itératif, et tient compte des facteurs liés à l'efficacité. Nous avons benchmarké une série de modèles à l'aide de RAVine et tiré plusieurs conclusions, que nous espérons contribueront à l'avancement du développement des systèmes de recherche agente. Le code et les jeux de données sont disponibles à l'adresse https://github.com/SwordFaith/RAVine.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
RAVine : Évaluation alignée sur la réalité pour la recherche agente | Articles | HyperAI