2달 전
TTD: 텍스트-태그 자기 증류를 통한 CLIP에서의 이미지-텍스트 정렬 개선 및 단일 태그 편향 완화
Sanghyun Jo; Soohyun Ryu; Sungyub Kim; Eunho Yang; Kyungsu Kim

초록
우리는 현대의 CLIP 기반 모델에서 중요한 편향을 발견하였으며, 이를 단일 태그 편향으로 지칭합니다. 이 편향은 CLIP의 텍스트 임베딩이 이미지-텍스트 관계에서 특정 한 태그(단어)를 우선시하면서 다른 관련 태그들을 소홀히 하는 것으로 나타납니다. 텍스트를 개별 태그로 분해할 때, 일반적으로 하나의 태그만이 CLIP의 이미지 임베딩과 높은 관련성을 보이는 경향이 있어, 이로 인해 태그 관련성이 편향됩니다. 본 논문에서는 이러한 문제를 해결하기 위해 새로운 두 단계 미세 조정 접근법인 텍스트-태그 자기 증류(Text-Tag Self-Distillation, TTD)를 제안합니다. TTD는 먼저 가장 가까운 픽셀과 유사한 이미지 관련 태그들을 텍스트에서 추출한 후, 결합된 마스크와 텍스트에서 도출된 마스크가 일치하도록 자기 증류 전략을 사용합니다. 이 접근법은 추가적인 감독 없이 이미지-텍스트 쌍만을 사용하여 CLIP 기반 모델의 불편향적인 이미지-텍스트 정렬을 보장합니다. 우리의 기술은 모델에 독립적인 개선을 보여주며, 특히 다중 태그 분류 및 세분화 작업에서 외부 자원에 의존하는 경쟁 방법들을 능가합니다. 코드는 https://github.com/shjo-april/TTD 에서 확인할 수 있습니다.