HyperAIHyperAI
vor 15 Tagen

data2vec: Ein allgemeiner Rahmen für selbstüberwachtes Lernen in Sprache, Bildverarbeitung und Sprache

Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, Michael Auli
data2vec: Ein allgemeiner Rahmen für selbstüberwachtes Lernen in Sprache, Bildverarbeitung und Sprache
Abstract

Obwohl die grundlegende Idee des selbstüberwachten Lernens across Modalitäten identisch ist, unterscheiden sich die konkreten Algorithmen und Ziele erheblich, da sie jeweils für eine einzelne Modality entwickelt wurden. Um uns einem allgemeinen selbstüberwachten Lernansatz näherzubringen, stellen wir data2vec vor, einen Rahmen, der dieselbe Lernmethode sowohl für Sprache, NLP als auch für Computer Vision nutzt. Der zentrale Ansatz besteht darin, latente Darstellungen des gesamten Eingabedatensatzes basierend auf einer maskierten Version der Eingabe in einer selbst-entgiftenden (self-distillation) Setup mit einer standardmäßigen Transformer-Architektur vorherzusagen. Anstatt modality-spezifische Ziele wie Wörter, visuelle Tokens oder Einheiten menschlicher Sprache vorherzusagen – die naturgemäß lokal sind – prognostiziert data2vec kontextualisierte latente Darstellungen, die Informationen aus dem gesamten Eingabedatensatz enthalten. Experimente an den wichtigsten Benchmarks für Spracherkennung, Bildklassifikation und natürliche Sprachverstehens zeigen eine neue State-of-the-Art-Leistung oder eine konkurrenzfähige Performance im Vergleich zu dominierenden Ansätzen.

data2vec: Ein allgemeiner Rahmen für selbstüberwachtes Lernen in Sprache, Bildverarbeitung und Sprache | Neueste Forschungsarbeiten | HyperAI