Nichtparametrische Instanzdiskriminierung zur unsupervisierten Merkmalslernung

Neuronale Netze, die auf Daten mit annotierten Klassenlabels trainiert wurden, können auch scheinbare visuelle Ähnlichkeit zwischen Kategorien erfassen, ohne explizit dazu angeleitet zu werden. Wir untersuchen, ob diese Beobachtung über den herkömmlichen Bereich des überwachten Lernens hinausgehend verallgemeinert werden kann: Können wir eine gute Merkmalsdarstellung erlernen, die scheinbare Ähnlichkeit zwischen einzelnen Instanzen – anstelle von Klassen – erfasst, indem wir lediglich verlangen, dass das Merkmal die einzelnen Instanzen unterscheidbar macht? Wir formulieren diese Intuition als ein nichtparametrisches Klassifikationsproblem auf Instanzebene und nutzen die Noise-Contrastive-Schätzung, um die durch die große Anzahl von Instanzklassen verursachten rechnerischen Herausforderungen zu bewältigen. Unsere experimentellen Ergebnisse zeigen, dass unsere Methode im unsupervisierten Lernsetting die derzeit beste Leistung bei der ImageNet-Klassifikation deutlich übertreffen kann. Zudem zeichnet sich unsere Methode durch eine konsistente Verbesserung der Testleistung mit zunehmender Trainingsdatenmenge und fortschrittlicheren Netzarchitekturen aus. Durch Feintuning der gelernten Merkmale erzielen wir zudem konkurrenzfähige Ergebnisse für semi-supervised Learning und Objekterkennungsaufgaben. Unser nichtparametrisches Modell ist äußerst kompakt: Mit 128 Merkmalen pro Bild benötigt unsere Methode lediglich 600 MB Speicherplatz für eine Million Bilder, was eine schnelle Nachbarschaftssuche im Laufzeitbetrieb ermöglicht.