HyperAIHyperAI
il y a 17 jours

Les Modèles Fondamentaux peuvent-ils maîtriser vos données ?

Avanika Narayan, Ines Chami, Laurel Orr, Simran Arora, Christopher Ré
Les Modèles Fondamentaux peuvent-ils maîtriser vos données ?
Résumé

Les modèles fondamentaux (Foundation Models, FMs) sont des modèles entraînés sur de grandes corpora de données, capables, à très grande échelle, de généraliser à de nouvelles tâches sans nécessiter de fine-tuning spécifique à la tâche. Alors que ces modèles continuent à croître en taille, des innovations successives poussent sans cesse les limites de leurs capacités sur les tâches linguistiques et visuelles. Ce papier vise à explorer un domaine sous-étudié des FMs : les tâches classiques sur les données, telles que le nettoyage et l’intégration. À titre de preuve de concept, nous reformulons cinq tâches de nettoyage et d’intégration de données sous la forme de tâches de prompting, puis évaluons les performances des FMs sur ces tâches. Nous constatons que les grands FMs parviennent à généraliser et atteignent des performances de state-of-the-art (SoTA) sur les tâches de nettoyage et d’intégration de données, malgré le fait qu’ils n’aient pas été spécifiquement entraînés pour ces tâches. Nous identifions des défis et des opportunités de recherche spécifiques que ces modèles posent, notamment les difficultés liées aux données privées et spécifiques à un domaine, ainsi que les opportunités de rendre les systèmes de gestion des données plus accessibles aux non-experts. Nous mettons à disposition publiquement notre code et nos expériences à l’adresse suivante : https://github.com/HazyResearch/fm_data_tasks.