HyperAI
vor 7 Tagen

RAVine: Realitätsorientierte Bewertung für agenzbasiertes Suchen

Yilong Xu; Xiang Long; Zhi Zheng; Jinhua Gao
RAVine: Realitätsorientierte Bewertung für agenzbasiertes Suchen
Abstract

Agentic Search, als eine autonome und anpassungsfähigere Paradigma der Retrieval-Verstärkung, treibt die Entwicklung intelligenter Suchsysteme voran. Allerdings stimmen bestehende Bewertungsrahmenwerke nicht gut mit den Zielen des agentischen Search überein. Zunächst führen komplexe Abfragen, die in aktuellen Benchmarks häufig verwendet werden, oft von realistischen Suchszenarien der Nutzer ab. Zweitens neigen frühere Ansätze dazu, Rauschen zu erzeugen, wenn sie die ground truth für end-to-end-Bewertungen extrahieren, was zu verzerrten Bewertungen auf feiner Ebene führt. Drittens konzentrieren sich die meisten aktuellen Rahmenwerke ausschließlich auf die Qualität der Endantworten und vernachlässigen die Bewertung des iterativen Prozesses, der charakteristisch für agentische Suchsysteme ist. Um diese Einschränkungen zu überwinden, schlagen wir RAVine vor – ein mit der Realität abgestimmtes Bewertungsrahmenwerk für agentische LLMs (Large Language Models) mit Suchfunktion. RAVine zielt auf mehrpunktige Abfragen und umfassende Antworten ab, die besser die Nutzervorstellungen widerspiegeln, und führt eine strategische Konstruktion von nachvollziehbaren ground truths ein, um die Genauigkeit der feinkörnigen Bewertung zu verbessern. Darüber hinaus analysiert RAVine die Interaktion des Modells mit Suchwerkzeugen während des iterativen Prozesses und berücksichtigt Faktoren der Effizienz. Wir testen eine Reihe von Modellen mit RAVine und gewinnen verschiedene Erkenntnisse, die wir hoffen, zur Weiterentwicklung agentischer Suchsysteme beitragen zu können. Der Code und die Datensätze sind unter https://github.com/SwordFaith/RAVine verfügbar.