HyperAIHyperAI
Back to Headlines

Évaluer la qualité du retrieval dans les pipelines RAG : précision, rappel et F1@k expliqués

il y a 4 jours

Dans un pipeline RAG (Retrieval-Augmented Generation), l’évaluation de la qualité de récupération est essentielle pour garantir que les documents pertinents soient correctement identifiés avant d’être passés au modèle linguistique (LLM). Sans une bonne récupération, même un LLM puissant ne pourra pas générer une réponse précise. Les métriques comme Precision@k, Recall@k et F1@k sont des outils fondamentaux pour mesurer cette performance. Ces métriques s’inspirent du domaine du Information Retrieval et se basent sur une évaluation binaire : chaque chunk récupéré est jugé soit pertinent, soit non pertinent par rapport à la requête, en comparaison avec un ensemble de vérité terrain (ground truth). Elles sont dites order-unaware, car elles ne tiennent pas compte de l’ordre dans lequel les documents sont retournés, mais uniquement de leur présence dans les k premiers résultats. HitRate@k est la métrique la plus simple : elle indique si au moins un document pertinent se trouve parmi les k premiers résultats (valeur 1) ou non (valeur 0). Elle permet une évaluation rapide de la capacité du système à trouver au moins une réponse correcte. Precision@k mesure la proportion de documents pertinents parmi les k résultats retournés. Elle reflète la qualité du résultat : plus la précision est élevée, plus les documents récupérés sont pertinents. Elle est particulièrement utile lorsque l’on souhaite minimiser les faux positifs. Recall@k, en revanche, évalue la couverture : quelle proportion des documents pertinents vraiment existants a été retrouvée dans les k premiers résultats ? Un bon recall signifie que le système n’a pas manqué de documents essentiels, même s’il a pu récupérer des éléments non pertinents. Pour équilibrer ces deux aspects, F1@k combine précision et rappel via leur moyenne harmonique. Une valeur élevée de F1@k indique que le système réussit à être à la fois précis (peu de faux positifs) et complet (peu de faux négatifs). C’est une métrique globale très utile pour comparer différentes configurations d’un pipeline RAG. Dans l’exemple du roman Guerre et Paix, en posant la question « Qui est Anna Pávlovna ? », on peut définir plusieurs extraits comme vérité terrain. En appliquant ces métriques sur les 10 premiers documents récupérés (avant et après reranking), on obtient des scores comme : HitRate@10 = 1, Precision@10 ≈ 0.67, Recall@10 ≈ 0.5, F1@10 ≈ 0.57. Ces chiffres montrent que le système trouve bien au moins un document pertinent, mais pourrait améliorer sa couverture et sa précision. Il est crucial d’évaluer ces métriques sur un ensemble de test comprenant plusieurs requêtes, afin d’obtenir une estimation fiable de la performance globale. En variant k, on peut analyser comment la performance évolue avec la taille du résultat retourné. En résumé, ces métriques permettent de diagnostiquer les faiblesses d’un système de récupération : un faible recall indique un problème de couverture (manque de documents pertinents), tandis qu’un faible precision suggère un trop grand nombre de documents non pertinents. Leur utilisation systématique est indispensable pour optimiser les embeddings, la stratégie de découpage (chunking), la base de données vectorielle et les mécanismes de reranking. Des outils comme LangChain, FAISS ou des modèles de cross-encoder (comme ms-marco-TinyBERT) facilitent l’implémentation de ces évaluations. Enfin, pour des déploiements industriels, des plateformes comme pialgorithms proposent des solutions intégrées pour évaluer, surveiller et améliorer continuellement la performance des pipelines RAG.

Related Links