데이터 홍수에서 데이터 큐레이션으로: 효율적인 텍스트 기반 개인 검색을 위한 필터링-WoRA 패러다임

텍스트 기반 개인 검색 연구에서 데이터 생성은 개인정보 보호와 수작업 주석 작업의 어려움을 해결하기 위한 주요 방법으로 부각되고 있습니다. 이론적으로 합성 데이터의 수는 무한할 수 있지만, 생성된 데이터가 후속 모델 훈련에 최적적으로 기여하는 양이 얼마인지는 여전히 과학적인 난제로 남아 있습니다. 우리는 이러한 구축된 데이터셋에서 오직 일부 데이터만이 결정적인 역할을 한다는 사실을 관찰하였습니다. 따라서, 필터링-우라(Filtering-WoRA) 패러다임을 소개합니다. 이 패러다임은 중요한 데이터 부분을 식별하는 필터링 알고리즘과 경량화된 미세 조정을 위한 우라(Weighted Low-Rank Adaptation, WoRA) 학습 전략을 포함하고 있습니다.필터링 알고리즘은 크로스-모달 관련성을 기반으로 많은 거친 매칭 합성 쌍들을 제거합니다. 데이터의 수가 줄어들면서 전체 모델의 미세 조정이 필요하지 않으므로, 우리는 모델 파라미터의 최소 부분만 효율적으로 업데이트할 수 있는 우라 학습 전략을 제안합니다. 우라는 학습 과정을 간소화하여 적은 양의 강력한 데이터 인스턴스로부터 지식을 추출하는 데 있어 효율성을 극대화시킵니다. 광범위한 실험 결과를 통해 사전 훈련의 효과성이 입증되었습니다. 특히 우리의 모델은 도전적인 실제 벤치마크에서 선진적이고 효율적인 검색 성능을 달성하였습니다.주목할 만한 점은 CUHK-PEDES 데이터셋에서 경쟁력 있는 mAP (67.02%)를 달성하면서도 모델 훈련 시간을 19.82% 단축시켰다는 것입니다.