HyperAIHyperAI
vor 17 Tagen

ClusterFit: Verbesserung der Generalisierbarkeit visueller Darstellungen

Xueting Yan, Ishan Misra, Abhinav Gupta, Deepti Ghadiyaram, Dhruv Mahajan
ClusterFit: Verbesserung der Generalisierbarkeit visueller Darstellungen
Abstract

Die Vortrainierung von Faltungsneuralen Netzen mit schwach überwachten und selbstüberwachten Strategien wird für verschiedene Aufgaben im Bereich des maschinellen Sehens zunehmend populär. Aufgrund des Fehlens starker diskriminativer Signale können die so gelernten Darstellungen jedoch überanpassen an das Vortrainingsziel (z. B. Hashtag-Vorhersage) und sich schlecht auf nachfolgende Aufgaben verallgemeinern. In dieser Arbeit präsentieren wir eine einfache Strategie – ClusterFit (CF) –, um die Robustheit der während des Vortrainings erlernten visuellen Darstellungen zu verbessern. Gegeben ein Datensatz führen wir (a) eine Clusterung der aus einem vortrainierten Netzwerk extrahierten Merkmale mittels k-Means durch und (b) trainieren ein neues Netzwerk von Grund auf neu auf diesem Datensatz, wobei die Clusterzuordnungen als Pseudolabels dienen. Wir zeigen empirisch, dass die Clusterung dazu beiträgt, informationsreiche, auf das Vortrainingsziel spezifische Merkmale aus den extrahierten Features zu reduzieren, wodurch die Überanpassung an dieses Ziel minimiert wird. Unser Ansatz ist für verschiedene Vortrainingsframeworks – schwach- und selbstüberwacht – sowie für unterschiedliche Modalitäten – Bilder und Videos – und Vortrainingsaufgaben – Objekt- und Aktionssklassifikation – erweiterbar. Durch umfangreiche Transfer-Learning-Experimente auf 11 unterschiedlichen Ziel-Datensätzen mit variierender Vokabulargröße und Granularität zeigen wir, dass ClusterFit die Qualität der Darstellungen signifikant verbessert im Vergleich zu den derzeit besten großskaligen (Millionen/Billionen) schwach überwachten Bild- und Videomodellen sowie selbstüberwachten Bildmodellen.