Command Palette
Search for a command to run...
Effizientes selbstüberwachtes Lernen mit kontextualisierten Zielrepräsentationen für Vision, Sprache und Sprachverarbeitung
Effizientes selbstüberwachtes Lernen mit kontextualisierten Zielrepräsentationen für Vision, Sprache und Sprachverarbeitung
Alexei Baevski Arun Babu Wei-Ning Hsu Michael Auli
Zusammenfassung
Aktuelle selbstüberwachte Lernalgorithmen sind oft modality-spezifisch und erfordern große Mengen an Rechenressourcen. Um diese Herausforderungen anzugehen, steigern wir die Trainingseffizienz von data2vec, einem Lernziel, das sich über mehrere Modalitäten generalisieren lässt. Wir kodieren keine maskierten Tokens, verwenden einen schnellen konvolutionellen Decoder und amortisieren den Aufwand zur Erstellung von Teacher-Repräsentationen. data2vec 2.0 profitiert von den reichhaltigen, kontextualisierten Zielrepräsentationen, die in data2vec eingeführt wurden, was einen schnellen selbstüberwachten Lerner ermöglicht. Experimente zur Bildklassifikation auf ImageNet-1K zeigen, dass data2vec 2.0 die Genauigkeit von Masked Autoencoders bei nur 1/16,4 der Vortrainingszeit erreicht; bei der Spracherkennung auf Librispeech erzielt es die gleiche Leistung wie wav2vec 2.0 bei nur 1/10,6 der benötigten Zeit; und bei der natürlichen Sprachverstehensaufgabe GLUE erreicht es die Leistung eines neu trainierten RoBERTa-Modells in der Hälfte der Zeit. Bei einem Kompromiss zwischen Geschwindigkeit und Genauigkeit erzielt data2vec 2.0 eine Top-1-Genauigkeit von 86,8 % auf ImageNet-1K mit einem ViT-L-Modell, das nur 150 Epochen trainiert wurde.