Unicom: Universelle und kompakte Repräsentationslernen für Bildsuche

Moderne Bildretrieval-Methoden basieren in der Regel auf dem Feinjustieren von vortrainierten Encodern zur Extraktion von bildbasierten Deskriptoren. Allerdings werden die am häufigsten verwendeten Modelle auf ImageNet-1K mit begrenzten Klassen vortrainiert. Die vortrainierte Merkmalsrepräsentation ist daher nicht universell genug, um sich gut auf die vielfältigen Klassen der offenen Welt zu verallgemeinern. In dieser Arbeit führen wir zunächst eine Clusterverteilung des groß angelegten LAION400M-Datensatzes durch, wobei wir eine Million Pseudoklassen basierend auf den gemeinsamen textuellen und visuellen Merkmalen erstellen, die durch das CLIP-Modell extrahiert wurden. Aufgrund der Verwirrung der Labelgranularität enthält der automatisch gruppierte Datensatz unvermeidlich schwere Konflikte zwischen den Klassen. Um solche Konflikte zu mildern, wählen wir zufällig teilweise interklassische Prototypen aus, um den margin-basierten Softmax-Verlust (margin-based softmax loss) zu konstruieren. Um die niedrigdimensionale Merkmalsrepräsentation weiter zu verbessern, wählen wir zufällig teilweise Merkmalsdimensionen aus, wenn wir Ähnlichkeiten zwischen Embeddings und klassenspezifischen Prototypen berechnen. Die doppelten zufälligen partiellen Selektionen beziehen sich auf die Klassendimension und die Merkmalsdimension der Prototypenmatrix, was die Klassifikationskonflikte robust macht und die Merkmalsembedding kompakt hält. Unsere Methode übertrifft signifikant sowohl state-of-the-art-unüberwachte als auch überwachte Bildretrieval-Ansätze in mehreren Benchmarks. Der Code und die vortrainierten Modelle werden veröffentlicht, um zukünftige Forschungen zu fördern: https://github.com/deepglint/unicom.