프랑카: 확장 가능한 시각적 표현 학습을 위한 중첩 마트료시카 클러스터링

우리는 프랑카(Franca, 발음: 프란-카)를 소개합니다: 이는 데이터, 코드, 가중치를 완전히 오픈 소스로 제공하는 첫 번째 비전 기초 모델로, DINOv2, CLIP, SigLIPv2 등 최신의 전용 모델을 능가하거나 그에 맞먹는 성능을 보여줍니다. 우리의 접근 방식은 웹-SSL에서 영감을 받은 투명한 학습 파이프라인에 기반하며, 공개적으로 이용 가능한 데이터인 ImageNet-21K와 ReLAION-2B의 일부를 사용합니다. 모델 출시를 넘어서, 우리는 SSL 클러스터링 방법의 중요한 제한점을 해결합니다. 현대의 모델들은 Sinkhorn-Knopp 등의 클러스터링 알고리즘을 통해 이미지 특성을 대형 코드북에 할당하지만, 클러스터링 의미론의 고유한 애매함을 고려하지 못합니다. 이를 해결하기 위해 우리는 중첩된 마트료시카 표현(nested Matryoshka representations) 기반으로 매개변수 효율적인 다중 헤드 클러스터링 프로젝터를 도입하였습니다. 이 설계는 모델 크기를 증가시키지 않으면서 점진적으로 특성을 더욱 세분화된 클러스터로 정제하여 성능과 메모리 효율성을 모두 달성할 수 있습니다. 또한 우리는 위치 편향을 밀집된 표현에서 명시적으로 제거하는 새로운 위치 분리 전략을 제안하여 의미 내용의 인코딩을 개선하였습니다. 이는 더 깨끗한 특성 공간의 유용성을 입증하며 여러 하류 벤치마크에서 일관된 성능 향상을 가져옵니다. 우리의 기여는 투명하고 높은 성능의 비전 모델에 대한 새로운 표준을 설정하고, 더 넓은 AI 커뮤니티를 위한 재현 가능하고 일반화된 기초 모델로 나아가는 길을 열어주었습니다. 코드와 모델 체크포인트는 https://github.com/valeoai/Franca에서 확인할 수 있습니다.