HyperAI

Apprentissage De La Représentation Des Matriochkas

L'apprentissage de la représentation des matriochkas (MRL) est une théorie proposée par Aditya Kusupati, Gantavya Bhatt et d'autres. Cette théorie a été publiée pour la première fois dans un article en 2022.Apprentissage de la représentation des matriochkas« milieu. L'article propose une nouvelle méthode d'apprentissage de représentation capable d'encoder des informations de différentes granularités dans une seule intégration, permettant au modèle de s'adapter aux tâches en aval avec différentes ressources informatiques.

Il apprend des informations avec différentes granularités en optimisant des vecteurs imbriqués de faible dimension et permet à une seule intégration de s'adapter aux contraintes de calcul des tâches en aval. L'idée centrale de MRL est d'apprendre une série de représentations à capacité variable dans un vecteur de grande dimension, qui sont explicitement optimisées de manière imbriquée, d'où le nom « Matriochka » (poupée russe).

Les principales caractéristiques du MRL comprennent :

  1. Représentation imbriquée: MRL apprend des vecteurs de faible dimension imbriqués dans le même vecteur de grande dimension qui peuvent représenter indépendamment les données d'entrée.
  2. Flexibilité et multi-fidélité:La représentation MRL peut s'adapter à différentes ressources informatiques et aux exigences des tâches en aval sans augmenter les coûts d'inférence et de déploiement.
  3. Particules grossières à fines:MRL apprend à partir de représentations à grain grossier vers des représentations à grain fin, de sorte que les informations augmentent avec l'augmentation des dimensions, formant une représentation d'informations hiérarchique.
  4. Déploiement adaptatif: MRL permet un déploiement adaptatif basé sur la précision et les contraintes de calcul, réduisant ainsi la dimensionnalité du vecteur d'intégration tout en maintenant la précision.
  5. Ensembles de données intermodaux et à grande échelle: MRL peut être étendu de manière transparente à différentes modalités, notamment la vision (telles que ViT, ResNet), la vision + langage (tel qu'ALIGN) et le langage (tel que BERT), et est applicable aux ensembles de données à grande échelle tels qu'ImageNet et JFT.
  6. Implémentation open source:Le code et les modèles pré-entraînés de MRL sont open source et accessibles via GitHub.

La proposition de MRL vise à répondre aux limitations de capacité fixes des pipelines d'apprentissage de représentation existants, rendant la représentation plus flexible pour s'adapter à différentes tâches en aval et ressources informatiques. Grâce au MRL, des tâches de classification et de récupération à grande échelle plus efficaces peuvent être réalisées, tout en améliorant la précision des tâches de classification à longue traîne et à quelques coups.