HyperAIHyperAI

Command Palette

Search for a command to run...

Effizientes selbstüberwachtes Lernen mit kontextualisierten Zielrepräsentationen für Vision, Sprache und Sprachverarbeitung

Alexei Baevski Arun Babu Wei-Ning Hsu Michael Auli

Zusammenfassung

Aktuelle selbstüberwachte Lernalgorithmen sind oft modality-spezifisch und erfordern große Mengen an Rechenressourcen. Um diese Herausforderungen anzugehen, steigern wir die Trainingseffizienz von data2vec, einem Lernziel, das sich über mehrere Modalitäten generalisieren lässt. Wir kodieren keine maskierten Tokens, verwenden einen schnellen konvolutionellen Decoder und amortisieren den Aufwand zur Erstellung von Teacher-Repräsentationen. data2vec 2.0 profitiert von den reichhaltigen, kontextualisierten Zielrepräsentationen, die in data2vec eingeführt wurden, was einen schnellen selbstüberwachten Lerner ermöglicht. Experimente zur Bildklassifikation auf ImageNet-1K zeigen, dass data2vec 2.0 die Genauigkeit von Masked Autoencoders bei nur 1/16,4 der Vortrainingszeit erreicht; bei der Spracherkennung auf Librispeech erzielt es die gleiche Leistung wie wav2vec 2.0 bei nur 1/10,6 der benötigten Zeit; und bei der natürlichen Sprachverstehensaufgabe GLUE erreicht es die Leistung eines neu trainierten RoBERTa-Modells in der Hälfte der Zeit. Bei einem Kompromiss zwischen Geschwindigkeit und Genauigkeit erzielt data2vec 2.0 eine Top-1-Genauigkeit von 86,8 % auf ImageNet-1K mit einem ViT-L-Modell, das nur 150 Epochen trainiert wurde.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Effizientes selbstüberwachtes Lernen mit kontextualisierten Zielrepräsentationen für Vision, Sprache und Sprachverarbeitung | Paper | HyperAI