Franca: Verschachtelte Matryoshka-Clustering für skalierbares visuelles Repräsentationslernen

Wir präsentieren Franca (ausgesprochen Fran-ka): die erste vollständig quelloffene (Daten, Code, Gewichte) Vision-Grundmodell, das die Leistung der neuesten proprietären Modelle wie DINOv2, CLIP, SigLIPv2 usw. erreicht und in vielen Fällen sogar übertreffen kann. Unser Ansatz basiert auf einem transparenten Trainingspipeline, die von Web-SSL inspiriert ist, und nutzt öffentlich verfügbare Daten: ImageNet-21K und einen Teil von ReLAION-2B. Neben der Veröffentlichung des Modells adressieren wir kritische Einschränkungen in SSL-Clustering-Methoden. Obwohl moderne Modelle darauf angewiesen sind, Bildmerkmale durch Clustering-Algorithmen wie Sinkhorn-Knopp großen Codewörterbüchern zuzuordnen, berücksichtigen sie nicht die inhärente Ambiguität in der Clustering-Semantik. Um dies zu beheben, führen wir einen parameter-effizienten Mehrkopf-Clustering-Projektor ein, der auf geschachtelten Matryoshka-Darstellungen basiert. Diese Architektur verfeinert Merkmale schrittweise in zunehmend feingranulare Cluster ohne die Modellgröße zu erhöhen, was sowohl Leistungs- als auch Speichereffizienz ermöglicht. Zudem schlagen wir eine neuartige Positionsdiskontextualisierungsstrategie vor, die positionale Verzerrungen aus dichten Darstellungen explizit entfernt und so die Kodierung semantisierter Inhalte verbessert. Dies führt zu konsistenten Verbesserungen bei mehreren Downstream-Benchmarks und zeigt die Nutzen saubererer Merkmalsräume auf. Unsere Beiträge etablieren einen neuen Standard für transparente, leistungsstarke Vision-Modelle und bahnen den Weg zu reproduzierbareren und allgemeiner verallgemeinerbaren Grundmodellen für die breitere KI-Gemeinschaft. Der Code und die Modellcheckpoints sind unter https://github.com/valeoai/Franca verfügbar.