HyperAIHyperAI
il y a 2 mois

Mise à l'échelle combinée pour l'apprentissage par transfert sans exemple

Hieu Pham; Zihang Dai; Golnaz Ghiasi; Kenji Kawaguchi; Hanxiao Liu; Adams Wei Yu; Jiahui Yu; Yi-Ting Chen; Minh-Thang Luong; Yonghui Wu; Mingxing Tan; Quoc V. Le
Mise à l'échelle combinée pour l'apprentissage par transfert sans exemple
Résumé

Nous présentons une méthode d'échelle combinée, nommée BASIC, qui atteint une précision de 85,7 % en classement premier sur l'ensemble de validation ImageNet ILSVRC-2012 sans apprendre à partir d'aucun exemple étiqueté d'ImageNet. Cette précision dépasse celle des meilleurs modèles similaires publiés, tels que CLIP et ALIGN, de 9,3 %. Notre modèle BASIC montre également des améliorations significatives dans les évaluations de robustesse. Par exemple, sur 5 ensembles de tests avec des décalages de distribution naturelle tels qu'ImageNet-{A,R,V2,Sketch} et ObjectNet, notre modèle atteint une précision moyenne de 84,3 % en classement premier, soit une légère baisse par rapport à sa précision initiale sur ImageNet. Pour obtenir ces résultats, nous avons élargi le cadre d'apprentissage par contraste de CLIP et ALIGN selon trois dimensions : la taille des données, la taille du modèle et la taille du lot (batch). Notre jeu de données comprend 6,6 milliards de paires image-texte bruitées, ce qui est 4 fois plus grand que celui d'ALIGN et 16 fois plus grand que celui de CLIP. Notre modèle le plus important compte 3 milliards de paramètres (poids), ce qui représente une augmentation de 3,75 fois en nombre de paramètres et de 8 fois en FLOPs par rapport à ALIGN et CLIP. Enfin, notre taille de lot est de 65536, soit deux fois plus que celle de CLIP et quatre fois plus que celle d'ALIGN.Nous avons rencontré deux défis majeurs concernant les règles d'échelle de BASIC. Premièrement, le principal défi pour mettre en œuvre les règles d'échelle combinées de BASIC est la mémoire limitée des accélérateurs tels que les GPU et TPU. Pour surmonter cette limitation mémoire, nous proposons deux méthodes simples qui utilisent le pointage des gradients (gradient checkpointing) et le parallélisme du modèle. Deuxièmement, bien que l'augmentation de la taille du jeu de données et du modèle soit la méthode courante pour améliorer les performances des modèles d'apprentissage profond comme BASIC, l'effet d'une grande taille de lot contrastif sur ces modèles d'image-texte formés par contraste n'est pas encore bien compris. Pour éclaircir les avantages d'une grande taille de lot contrastif, nous avons développé un cadre théorique montrant que des tailles plus grandes de lots contrastifs entraînent des écarts généralisation plus petits pour les modèles image-texte tels que BASIC.

Mise à l'échelle combinée pour l'apprentissage par transfert sans exemple | Articles de recherche récents | HyperAI