HyperAIHyperAI

Command Palette

Search for a command to run...

VirTex: Lernen von visuellen Repräsentationen aus textuellen Annotationen

Karan Desai Justin Johnson

Zusammenfassung

Der de-facto-Ansatz für viele visuelle Aufgaben besteht darin, mit vortrainierten visuellen Darstellungen zu beginnen, die typischerweise durch überwachtes Training auf ImageNet erlernt werden. Kürzlich untersuchten Methoden unsupervisiertes Vortrainieren, um auf riesige Mengen an ungelabelten Bildern skalieren zu können. Im Gegensatz dazu zielen wir darauf ab, hochwertige visuelle Darstellungen mit weniger Bildern zu erlernen. Dazu überprüfen wir erneut das überwachte Vortrainieren und suchen nach dateneffizienten Alternativen zum klassifikationsbasierten Vortrainieren. Wir stellen VirTex vor – einen Vortrainierungsansatz, der semantisch dichte Beschreibungen nutzt, um visuelle Darstellungen zu lernen. Wir trainieren konvolutionale Netzwerke von Grund auf auf COCO Captions und transferieren sie anschließend auf nachgeschaltete Erkennungsaufgaben, darunter Bildklassifikation, Objekterkennung und Instanzsegmentierung. Auf allen Aufgaben erzielt VirTex Merkmale, die denjenigen, die auf ImageNet – sowohl überwacht als auch unsuperviert – erlernt wurden, entsprechen oder diese übertreffen, obwohl bis zu zehnmal weniger Bilder verwendet werden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VirTex: Lernen von visuellen Repräsentationen aus textuellen Annotationen | Paper | HyperAI