HyperAIHyperAI
il y a 11 jours

FETA : Vers la spécialisation des modèles fondamentaux pour les applications de tâches expertes

Amit Alfassy, Assaf Arbelle, Oshri Halimi, Sivan Harary, Roei Herzig, Eli Schwartz, Rameswar Panda, Michele Dolfi, Christoph Auer, Kate Saenko, PeterW. J. Staar, Rogerio Feris, Leonid Karlinsky
FETA : Vers la spécialisation des modèles fondamentaux pour les applications de tâches expertes
Résumé

Les modèles fondamentaux (Foundation Models, FMs) ont démontré des capacités sans précédent, notamment l’apprentissage zéro-shot, la synthèse de données à haute fidélité et la généralisation hors-domaine. Toutefois, comme nous le montrons dans cet article, les FMs présentent encore des performances médiocres dès le départ sur des tâches expertes (par exemple, la recherche d’illustrations techniques de manuels automobiles à partir de requêtes linguistiques), pour des données qui sont soit inconnues, soit appartenant à une partie longue-taille de la distribution des données utilisées pour l’entraînement préalable des FMs à grande échelle. Cela souligne la nécessité d’évaluer explicitement et de finetuner les FMs sur de telles tâches expertes, qui sont probablement celles qui apparaissent le plus fréquemment dans les applications concrètes du monde réel. Dans ce papier, nous proposons la première évaluation du genre, baptisée FETA, centrée sur la tâche d’enseignement aux FMs pour qu’ils comprennent les documents techniques en apprenant à associer leurs illustrations graphiques aux descriptions linguistiques correspondantes. Le benchmark FETA se concentre sur la recherche texte-à-image et image-à-texte dans des manuels automobiles publics et des brochures de catalogues commerciaux. FETA est doté d’un procédé d’extraction automatique des annotations (le code sera publié à l’acceptation), permettant une extension facile du benchmark à d’autres types de documents et domaines d’application à l’avenir. Notre méthode d’annotation automatique conduit à une métrique de performance automatisée, dont les résultats se révèlent cohérents avec ceux obtenus à partir d’annotations soigneusement sélectionnées par des humains (également publiées). Nous fournissons plusieurs références (baselines) et une analyse approfondie de modèles fondamentaux populaires sur FETA, menant à plusieurs observations intéressantes que nous estimons particulièrement utiles pour la communauté des FMs, ouvrant la voie à une application concrète des FMs dans des tâches expertes pratiques actuellement « négligées » par les benchmarks standards axés sur des objets courants.

FETA : Vers la spécialisation des modèles fondamentaux pour les applications de tâches expertes | Articles de recherche récents | HyperAI