HyperAIHyperAI
il y a 15 jours

data2vec : Un cadre général pour l'apprentissage non supervisé dans le domaine du parole, de la vision et du langage

Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, Michael Auli
data2vec : Un cadre général pour l'apprentissage non supervisé dans le domaine du parole, de la vision et du langage
Résumé

Bien que l'idée générale de l'apprentissage auto-supervisé soit identique à travers les différentes modalités, les algorithmes et objectifs concrets diffèrent fortement, car ils ont été développés en s'appuyant sur une seule modalité. Pour nous rapprocher d'un apprentissage auto-supervisé généralisé, nous présentons data2vec, un cadre qui utilise la même méthode d'apprentissage aussi bien pour la parole, que pour le traitement du langage naturel (NLP) ou la vision par ordinateur. L'idée centrale consiste à prédire des représentations latentes de l'ensemble des données d'entrée à partir d'une version masquée de l'entrée, dans un cadre de self-distillation utilisant une architecture Transformer standard. Contrairement aux approches traditionnelles qui visent à prédire des cibles spécifiques à la modalité — telles que des mots, des tokens visuels ou des unités de parole humaine, qui sont de nature locale — data2vec prédit des représentations latentes contextualisées, contenant des informations provenant de l'ensemble de l'entrée. Des expériences menées sur les principales benchmarks en reconnaissance vocale, classification d'images et compréhension du langage naturel démontrent un nouveau record d'performance ou des résultats compétitifs par rapport aux approches dominantes.

data2vec : Un cadre général pour l'apprentissage non supervisé dans le domaine du parole, de la vision et du langage | Articles de recherche récents | HyperAI