2 个月前

从数据泛滥到数据管理:一种高效的基于文本的人脸搜索过滤-WoRA范式

Sun, Jintao ; Fei, Hao ; Zheng, Zhedong ; Ding, Gangyi
从数据泛滥到数据管理:一种高效的基于文本的人脸搜索过滤-WoRA范式
摘要

在基于文本的人脸搜索研究中,数据生成已成为一种普遍做法,旨在解决隐私保护问题和手动标注的繁重任务。尽管理论上合成数据的数量可以无限增加,但科学难题依然存在:生成多少数据才能最有效地促进后续模型训练。我们观察到,在这些构建的数据集中,只有部分数据起到了决定性作用。因此,我们引入了一种新的过滤-无秩适应(Filtering-WoRA)范式,其中包含一个用于识别关键数据子集的过滤算法以及轻量级微调的WoRA(加权低秩适应)学习策略。该过滤算法基于跨模态相关性来移除大量粗略匹配的合成对。随着数据量的减少,我们无需对整个模型进行微调。因此,我们提出了一种WoRA学习策略,以高效地更新模型参数的最小部分。WoRA简化了学习过程,提高了从少量但强大的数据实例中提取知识的效率。广泛的实验验证了预训练的有效性,在具有挑战性的现实世界基准测试中,我们的模型实现了先进且高效的检索性能。特别是在CUHK-PEDES数据集上,我们在减少模型训练时间19.82%的情况下达到了具有竞争力的mAP值67.02%。