Back to Headlines

RAG 성능 평가의 핵심: Precision@k, Recall@k, F1@k로 검색 품질을 측정하는 방법

4일 전

RAG 파이프라인에서 검색 품질을 평가하기 위해 주로 사용하는 지표로는 Precision@k, Recall@k, F1@k가 있다. 이들은 이진적 관련성 기준(관련/비관련)을 기반으로 하며, 순서를 고려하지 않는(order-unaware) 메트릭이다. HitRate@k는 상위 k개 결과 중 적어도 하나의 관련 문서가 포함되었는지를 확인하는 가장 기본적인 지표로, 1 또는 0의 값을 가진다. Precision@k는 상위 k개 결과 중 실제로 관련된 문서의 비율로, 검색의 정확성을 평가한다. Recall@k는 전체 관련 문서 중 상위 k개에 포함된 비율로, 검색의 포괄성을 나타낸다. F1@k는 Precision과 Recall의 조화평균으로, 정확성과 포괄성 사이의 균형을 평가하는 종합적 지표이다. 예시로 『전쟁과 평화』에서 ‘안나 파블로브나는 누구인가?’라는 질문에 대해 상위 10개 문서를 검색한 후, 사전 정의된 참조 문장(ground truth)과 비교하면, F1@6이 0.67, Recall@6이 0.67, Precision@6이 0.67, Hit@6이 True로 나타나며, 이는 관련 문서를 상당 부분 성공적으로 검색했다는 의미이다. 이 지표들은 단일 쿼리뿐 아니라 여러 쿼리로 구성된 테스트 세트에서 평균화하여 전반적인 검색 성능을 평가하는 데 유용하다. 특히 RAG 시스템에서는 검색 단계의 품질이 후속 생성 단계의 정확성에 직접적인 영향을 미치므로, 이러한 메트릭을 통해 검색 모델 및 벡터 데이터베이스를 지속적으로 개선하는 것이 필수적이다.

Related Links