2 个月前

TTD:文本-标签自蒸馏增强CLIP中的图像-文本对齐以缓解单标签偏差

Sanghyun Jo; Soohyun Ryu; Sungyub Kim; Eunho Yang; Kyungsu Kim
TTD:文本-标签自蒸馏增强CLIP中的图像-文本对齐以缓解单标签偏差
摘要

我们在当前基于CLIP的模型中发现了一个关键偏见,我们称之为单标签偏见(single tag bias)。这种偏见表现为对单一标签(单词)的过度关注,而忽视了其他相关的标签,其根源在于CLIP的文本嵌入在图像-文本关系中优先考虑一个特定的标签。当将文本分解为单独的标签时,通常只有一个标签与CLIP的图像嵌入具有高相关性,从而导致标签相关性的偏差。在本文中,我们提出了一种新颖的两步微调方法——文本-标签自蒸馏(Text-Tag Self-Distillation, TTD),以解决这一问题。TTD首先根据标签与最近像素的相似性从文本中提取与图像相关的标签,然后采用自蒸馏策略将组合掩码与从文本派生的掩码对齐。这种方法仅使用图像-文本对即可确保基于CLIP的模型实现无偏见的图像-文本对齐,而无需额外的监督。我们的技术在多标签分类和分割任务中展示了模型无关性的改进,超越了依赖外部资源的竞争方法。代码可在https://github.com/shjo-april/TTD 获取。