vor 2 Monaten

Lernen von übertragbaren visuellen Modellen durch natürlichsprachliche Überwachung

Radford, Alec ; Kim, Jong Wook ; Hallacy, Chris ; Ramesh, Aditya ; Goh, Gabriel ; Agarwal, Sandhini ; Sastry, Girish ; Askell, Amanda ; Mishkin, Pamela ; Clark, Jack ; Krueger, Gretchen ; Sutskever, Ilya

Details der Forschungsarbeit anzeigen

Lernen von übertragbaren visuellen Modellen durch natürlichsprachliche Überwachung

Abstract

Zustandsderkunst-Computer-Vision-Systeme werden trainiert, um eine feste Menge vorbestimmter Objektkategorien vorherzusagen. Diese eingeschränkte Form der Überwachung begrenzt ihre Allgemeinheit und Nutzbarkeit, da zusätzliche annotierte Daten erforderlich sind, um andere visuelle Konzepte zu spezifizieren. Das direkte Lernen aus rohem Text über Bilder ist eine vielversprechende Alternative, die von einer viel breiteren Quelle der Überwachung profitiert. Wir zeigen, dass die einfache Vortrainingsaufgabe, vorherzusagen, welches Bild zu welcher Beschriftung gehört, eine effiziente und skalierbare Methode ist, um SOTA-Bildrepräsentationen (state-of-the-art) von Grund auf neu auf einem Datensatz von 400 Millionen (Bild, Text)-Paaren zu lernen, die aus dem Internet gesammelt wurden. Nach dem Vortraining wird natürliche Sprache verwendet, um gelernte visuelle Konzepte zu referenzieren (oder neue zu beschreiben), was es ermöglicht, das Modell ohne weitere Anpassungen auf nachgelagerte Aufgaben zu übertragen. Wir untersuchen die Leistung dieses Ansatzes durch Vergleiche mit über 30 verschiedenen bestehenden Computer-Vision-Datensätzen, die Aufgaben wie OCR (Optical Character Recognition), Aktionserkennung in Videos, Geo-Lokalisierung und viele Arten feingranularer Objektklassifikation abdecken. Das Modell überträgt sich nicht trivial auf die meisten Aufgaben und ist oft wettbewerbsfähig mit vollständig überwachten Baselines ohne den Bedarf an auf Datensatz spezifischem Training. Zum Beispiel erreichen wir die Genauigkeit des ursprünglichen ResNet-50 auf ImageNet im Zero-Shot-Szenario ohne irgendeiner der 1,28 Millionen Trainingsbeispiele zu verwenden, mit denen es trainiert wurde. Unser Code und die Gewichte unseres vortrainierten Modells sind unter https://github.com/OpenAI/CLIP verfügbar.