HyperAIHyperAI
vor 17 Tagen

Selbstüberwachtes Vortrainieren visueller Merkmale in der Wildnis

Priya Goyal, Mathilde Caron, Benjamin Lefaudeux, Min Xu, Pengchao Wang, Vivek Pai, Mannat Singh, Vitaliy Liptchinsky, Ishan Misra, Armand Joulin, Piotr Bojanowski
Selbstüberwachtes Vortrainieren visueller Merkmale in der Wildnis
Abstract

Kürzlich haben selbstüberwachte Lernmethoden wie MoCo, SimCLR, BYOL und SwAV die Lücke zu überwachten Methoden verringert. Diese Ergebnisse wurden in einer kontrollierten Umgebung erzielt, nämlich dem hochgradig präparierten ImageNet-Datensatz. Der zentrale Anspruch selbstüberwachten Lernens besteht jedoch darin, aus beliebigen zufälligen Bildern und aus beliebigen, unbeschränkten Datensätzen lernen zu können. In dieser Arbeit untersuchen wir, ob sich selbstüberwachtes Lernen tatsächlich angesichts dieser Erwartung bewährt, indem wir große Modelle auf zufälligen, unvorbereiteten Bildern ohne jegliche Überwachung trainieren. Unser endgültiges SElf-supERvised (SEER)-Modell, ein RegNetY mit 1,3 Milliarden Parametern, das auf 1 Milliarde zufälligen Bildern mit 512 GPUs trainiert wurde, erreicht eine Top-1-Accuracy von 84,2 % – dies übertrifft das beste bisherige selbstüberwachte vortrainierte Modell um 1 Prozent und bestätigt, dass selbstüberwachtes Lernen auch in einer realen Weltumgebung funktioniert. Interessanterweise stellen wir außerdem fest, dass selbstüberwachte Modelle hervorragende Few-Shot-Lerner sind: Mit Zugriff auf lediglich 10 % von ImageNet erreichen sie eine Top-1-Accuracy von 77,9 %. Code: https://github.com/facebookresearch/vissl