DLCR: 확산을 통한 생성적 데이터 확장 프레임워크로 의상 변경된 사람 재식별 수행

최근 생성 확산 모델의 강점을 보여주면서, 이러한 모델이 생성한 이미지를 사용하여 더 나은 시각적 표현을 학습할 수 있는지 여부가 개방된 연구 질문으로 남아 있습니다. 이 생성 데이터 확장은 비교적 쉬운 시각적 작업에는 충분할 수 있지만, 우리는 이를 더 어려운 판별 작업인 의상 변경 인물 재식별(CC-ReID)에 대한 효능을 탐구합니다. CC-ReID는 카메라 간에 의상을 바꾸더라도 비중복 카메라에서 나타나는 사람들을 매칭하는 것을 목표로 합니다. 현재 CC-ReID 모델들은 기존 CC-ReID 데이터셋의 제한적인 의상 다양성으로 인해 제약을 받고 있으며, 중요한 개인 특성을 유지하면서 추가 데이터를 생성하는 것이 현재의 과제입니다.이 문제를 해결하기 위해 우리는 DLCR이라는 새로운 데이터 확장 프레임워크를 제안합니다. DLCR은 사전 훈련된 확산 모델과 대형 언어 모델(LLMs)을 활용하여 다양한 의상을 입은 개인들의 정확하고 다양한 이미지를 생성합니다. 우리는 PRCC, CCVID, LaST, VC-Clothes, LTCC 등 5개 벤치마크 CC-ReID 데이터셋에 추가 데이터를 생성하여 의상 다양성을 10배 증가시키고, 총 210만 장 이상의 이미지를 생성하였습니다.DLCR은 LLMs를 사용하여 구성된 의상 프롬프트에 조건부로 작동하는 확산 기반 텍스트 안내 inpainting을 사용하여 합성 데이터를 생성하는데, 이는 주체의 의상만 수정하고 개인 식별 특성을 유지하도록 설계되었습니다. 이와 같은 대규모 데이터 증가를 통해 우리는 훈련 시간을 줄이고 CC-ReID 성능을 더욱 높이는 두 가지 새로운 전략 - 단계적 학습과 테스트 시간 예측 개선 - 을 도입하였습니다. PRCC 데이터셋에서, 우리는 DLCR로 생성된 데이터로 CAL(이전 최신 기술(SOTA) 방법)을 훈련시켜 top-1 정확도를 11.3% 크게 개선했습니다.우리는 각 데이터셋에 대한 코드와 생성된 데이터를 공개적으로 제공하며, 관련 링크는 다음과 같습니다: https://github.com/CroitoruAlin/dlcr.