2달 전

합성 데이터셋은 일반화 가능한 사람 재식별 벤치마킹에 신뢰할 수 있는가?

Kang, Cuicui
합성 데이터셋은 일반화 가능한 사람 재식별 벤치마킹에 신뢰할 수 있는가?
초록

최근 연구에서는 합성 데이터셋에서 훈련된 모델이 공개된 실제 데이터셋에서 훈련된 모델보다 일반화 가능한 사람 재식별(GPReID) 성능을 더 높게 달성할 수 있음을 보여주고 있습니다. 한편, 실제 사람 재식별(ReID) 데이터셋의 제한성 때문에 대규모 합성 데이터셋을 테스트 세트로 사용하여 사람 ReID 알고리즘을 벤치마킹하는 것이 중요하고 흥미롭습니다. 그러나 이는 중요한 질문을 제기합니다: 합성 데이터셋은 일반화 가능한 사람 재식별을 벤치마킹하는 데 신뢰할 수 있는가? 문헌에는 이러한 증거가 없습니다. 이를 해결하기 위해, 우리는 쌍별 순위 분석(Pairwise Ranking Analysis, PRA)이라는 방법을 설계하여 순위 유사성을 정량적으로 측정하고 동일 분포에 대한 통계적 검증을 수행합니다.구체적으로, Kendall 순위 상관계수를 사용하여 다른 데이터셋에서의 알고리즘 순위 간의 쌍별 유사도 값을 평가합니다. 그런 다음, 비모수 두 표본 Kolmogorov-Smirnov(KS) 검사를 수행하여 합성 데이터셋과 실제 데이터셋 사이의 알고리즘 순위 상관 관계와 실제 데이터셋 간의 순위 상관 관계가 동일한 분포에 있는지를 판단합니다. 우리는 10개의 대표적인 알고리즘, 3개의 인기 있는 실제 사람 ReID 데이터셋, 그리고 최근 출시된 3개의 대규모 합성 데이터셋을 사용하여 포괄적인 실험을 수행했습니다.설계된 쌍별 순위 분석과 포괄적인 평가를 통해 최근 출시된 대규모 합성 데이터셋인 ClonedPerson이 GPReID 벤치마킹에 신뢰할 수 있게 사용될 수 있으며, 통계적으로 실제 데이터셋과 동일하다는 결론을 내렸습니다. 따라서 본 연구는 소스 훈련 세트와 타겟 테스트 세트 모두에 대해 현실 세계 감시 데이터로부터 완전히 프라이버시 문제 없이 합성 데이터셋을 사용하는 것을 보장합니다. 또한 본 논문의 연구는 미래 합성 데이터셋 설계에도 영감을 줄 수 있을 것입니다.