HyperAIHyperAI
il y a 16 jours

DABS : Une base d'évaluation indépendante du domaine pour l'apprentissage non supervisé

Alex Tamkin, Vincent Liu, Rongfei Lu, Daniel Fein, Colin Schultz, Noah Goodman
DABS : Une base d'évaluation indépendante du domaine pour l'apprentissage non supervisé
Résumé

Les algorithmes d’apprentissage auto-supervisé, tels que BERT et SimCLR, ont permis des avancées significatives dans des domaines comme le traitement du langage naturel, la vision par ordinateur et le traitement du signal vocal. Toutefois, ces algorithmes sont spécifiques à un domaine, ce qui implique qu’il est nécessaire de concevoir de nouveaux algorithmes d’apprentissage auto-supervisé pour chaque nouveau contexte, notamment dans des domaines variés tels que la santé, les sciences et les données multimodales. Afin de stimuler les progrès vers des méthodes indépendantes du domaine, nous introduisons DABS : un benchmark pour l’apprentissage auto-supervisé indépendant du domaine. Pour réussir sur DABS, un algorithme est évalué sur sept domaines diversifiés : images naturelles, données de capteurs multicanal, textes en anglais, enregistrements vocaux, textes multilingues, radiographies de thorax et images accompagnées de descriptions textuelles. Chaque domaine dispose d’un jeu de données non étiqueté destiné au pré-entraînement ; le modèle est ensuite noté selon ses performances sur des tâches étiquetées en aval dans ce domaine. Nous présentons également e-Mix et ShED : deux algorithmes de base indépendants du domaine ; leur performance relativement modeste met en évidence la nécessité de progrès importants avant que l’apprentissage auto-supervisé ne devienne une solution « plug-and-play » pour tout type de domaine. Le code relatif aux jeux de données du benchmark et aux algorithmes de base est disponible à l’adresse suivante : https://github.com/alextamkin/dabs.

DABS : Une base d'évaluation indépendante du domaine pour l'apprentissage non supervisé | Articles de recherche récents | HyperAI