HyperAI超神经
10 days ago

弗兰卡:嵌套马特里欧什卡聚类用于可扩展的视觉表示学习

Shashanka Venkataramanan, Valentinos Pariza, Mohammadreza Salehi, Lukas Knobel, Spyros Gidaris, Elias Ramzi, Andrei Bursuc, Yuki M. Asano
弗兰卡:嵌套马特里欧什卡聚类用于可扩展的视觉表示学习
摘要

我们介绍了Franca(发音为弗兰卡):自由一号;这是首个完全开源(数据、代码、权重)的视觉基础模型,其性能在许多情况下匹配甚至超过了当前最先进的专有模型,例如DINOv2、CLIP、SigLIPv2等。我们的方法基于一个透明的训练流程,该流程受到Web-SSL的启发,并使用公开可用的数据集:ImageNet-21K和ReLAION-2B的一个子集。除了发布模型外,我们还解决了自监督学习(SSL)聚类方法中的关键限制。尽管现代模型依赖于通过Sinkhorn-Knopp等聚类算法将图像特征分配到大型码本中,但它们未能考虑到聚类语义固有的模糊性。为此,我们引入了一种基于嵌套Matryoshka表示的参数高效多头聚类投影器。这种设计逐步将特征细化为越来越细粒度的聚类,而不会增加模型规模,从而实现性能和内存效率的双重提升。此外,我们提出了一种新的位置解耦策略,明确地从密集表示中去除位置偏差,从而改善了语义内容的编码。这在多个下游基准测试中带来了持续的性能提升,证明了更干净特征空间的价值。我们的贡献为透明、高性能的视觉模型树立了新标准,并为更广泛的AI社区打开了通向更具可复现性和泛化性的基础模型的道路。代码和模型检查点可在https://github.com/valeoai/Franca获取。