HyperAIHyperAI
vor 7 Tagen

VirTex: Lernen von visuellen Repräsentationen aus textuellen Annotationen

Karan Desai, Justin Johnson
VirTex: Lernen von visuellen Repräsentationen aus textuellen Annotationen
Abstract

Der de-facto-Ansatz für viele visuelle Aufgaben besteht darin, mit vortrainierten visuellen Darstellungen zu beginnen, die typischerweise durch überwachtes Training auf ImageNet erlernt werden. Kürzlich untersuchten Methoden unsupervisiertes Vortrainieren, um auf riesige Mengen an ungelabelten Bildern skalieren zu können. Im Gegensatz dazu zielen wir darauf ab, hochwertige visuelle Darstellungen mit weniger Bildern zu erlernen. Dazu überprüfen wir erneut das überwachte Vortrainieren und suchen nach dateneffizienten Alternativen zum klassifikationsbasierten Vortrainieren. Wir stellen VirTex vor – einen Vortrainierungsansatz, der semantisch dichte Beschreibungen nutzt, um visuelle Darstellungen zu lernen. Wir trainieren konvolutionale Netzwerke von Grund auf auf COCO Captions und transferieren sie anschließend auf nachgeschaltete Erkennungsaufgaben, darunter Bildklassifikation, Objekterkennung und Instanzsegmentierung. Auf allen Aufgaben erzielt VirTex Merkmale, die denjenigen, die auf ImageNet – sowohl überwacht als auch unsuperviert – erlernt wurden, entsprechen oder diese übertreffen, obwohl bis zu zehnmal weniger Bilder verwendet werden.

VirTex: Lernen von visuellen Repräsentationen aus textuellen Annotationen | Neueste Forschungsarbeiten | HyperAI