HyperAIHyperAI
Back to Headlines

Evaluation von Retrieval-Qualität in RAG-Pipelines: Precision@k, Recall@k, F1@k

vor 4 Tagen

In einer RAG-Pipeline (Retrieval-Augmented Generation) ist die Qualität der Dokumentenretrieval-Phase entscheidend für die Generierung genauer und sinnvoller Antworten durch ein Sprachmodell. Um diese Qualität zu bewerten, werden gängige Metriken wie Precision@k, Recall@k und F1@k eingesetzt, die auf binären Relevanzbewertungen basieren – also ob ein Dokumentabschnitt zur Antwort auf eine Anfrage relevant ist oder nicht. Diese Metriken sind ordnungsunabhängig, d.h., sie berücksichtigen nicht, in welcher Reihenfolge Dokumente zurückgegeben werden, sondern nur, ob relevante Inhalte in den ersten k Ergebnissen enthalten sind. Precision@k misst den Anteil relevanter Dokumente unter den ersten k zurückgegebenen. Ein hoher Wert bedeutet, dass die meisten der abgerufenen Inhalte tatsächlich relevant sind – ein wichtiger Indikator für die Genauigkeit der Suche. Recall@k hingegen zeigt, wie viele der tatsächlich relevanten Dokumente in den oberen k Ergebnissen erfasst wurden. Ein hoher Recall bedeutet, dass wenig relevante Informationen verpasst werden, auch wenn dabei einige irrelevante Dokumente mit dabei sind. F1@k kombiniert beide Maße zu einem ausgewogenen Score, der nur dann hoch ist, wenn sowohl Präzision als auch Recall gut sind – ideal für die Bewertung eines ausgewogenen Retrieval-Systems. Im Beispiel mit dem Roman Krieg und Frieden und der Frage „Wer ist Anna Pávlovna?“ wurden mehrere relevante Textabschnitte als Ground Truth definiert. Nach Durchführung der Suche und Reranking mit einem Cross-Encoder wurden die Metriken für k = 10 berechnet. Die Ergebnisse zeigten, dass die Retrieval-Phase zwar einige relevante Abschnitte erfasst hatte (z. B. Hit@6 = 1), aber der Recall relativ niedrig war – einige wichtige Informationen fehlten noch. Dies verdeutlicht, dass selbst mit einem hochwertigen Embedding-Modell und einem Reranker die Retrieval-Performance durchaus verbesserungswürdig sein kann, insbesondere wenn die Chunk-Größe oder die Embedding-Qualität nicht optimal sind. Industrieexperten betonen, dass solche Metriken zwar grundlegend sind, aber nur einen Teil der Wahrheit zeigen. In der Praxis werden oft graded relevance scores (z. B. auf einer Skala von 0 bis 5) verwendet, um Nuancen der Relevanz zu erfassen, und order-aware Metriken wie nDCG@k oder MAP@k helfen, die Qualität der Rangfolge zu bewerten. Zudem ist die Erstellung einer repräsentativen Testset mit annotierten Ground Truths eine zeitaufwändige, aber notwendige Voraussetzung für verlässliche Bewertungen. Unternehmen wie pialgorithms oder Plattformen wie LangChain und Hugging Face bieten Tools und Services an, um solche Evaluationsprozesse zu automatisieren und zu skalieren. Die richtige Balance zwischen Präzision und Vollständigkeit bleibt zentral – denn ein schlechtes Retrieval kann kein gutes LLM-Modell retten.

Related Links