
摘要
我们提出了一种用于语言-图像预训练(SigLIP)的简单成对Sigmoid损失函数。与采用Softmax归一化的标准对比学习不同,Sigmoid损失仅作用于图像-文本成对样本,无需全局视角下的成对相似性归一化。该损失函数在支持更大批量规模的同时,也能在较小批量下表现出更优性能。结合锁定图像微调(Locked-image Tuning),仅使用四块TPUv4芯片,我们仅用两天时间便训练出一个SigLiT模型,在ImageNet零样本分类任务上达到84.5%的准确率。由于批量大小与损失函数解耦,我们得以深入研究样本数量与成对样本数量之间的权衡,以及负样本与正样本比例的影响。最后,我们将批量规模推至极限,达到百万级别,发现随着批量增大,性能提升迅速衰减,而32K左右的批量规模已足够实现良好效果。我们已在GitHub(https://github.com/google-research/big_vision)开源相关模型,期望本研究能激发更多关于提升语言-图像预训练质量与效率的探索。