Apprentissage Contrastif
résumé
L'apprentissage contrastif est une technique qui améliore les performances des tâches de vision en utilisant le principe de contraste des échantillons les uns par rapport aux autres pour apprendre les propriétés communes aux classes de données et les propriétés qui distinguent une classe de données d'une autre.
Ce modèle d’apprentissage, qui imite la façon dont les humains apprennent à connaître le monde qui les entoure, a montré des résultats prometteurs dans la littérature sur l’apprentissage profond et est devenu de plus en plus important dans le domaine de la recherche en vision par ordinateur.
Qu’est-ce que l’apprentissage contrastif ?
L'apprentissage contrastif est un paradigme d'apprentissage automatique dans lequel des points de données non étiquetés sont juxtaposés les uns aux autres pour enseigner au modèle quels points sont similaires et lesquels sont différents.
Autrement dit, comme son nom l'indique, les échantillons sont mis en contraste les uns avec les autres et les échantillons appartenant à la même distribution sont poussés les uns vers les autres dans l'espace d'intégration. Au lieu de cela, ceux qui appartiennent à des distributions différentes sont en concurrence les uns avec les autres.
L'importance de l'apprentissage contrastif
L'apprentissage supervisé est une technique d'apprentissage automatique qui entraîne un modèle en utilisant un grand nombre d'exemples étiquetés. La qualité des étiquettes de données est cruciale pour le succès des modèles supervisés.
Cependant, obtenir des données étiquetées de si haute qualité est une tâche fastidieuse, en particulier dans des domaines tels que l’imagerie biomédicale, qui nécessite des médecins experts pour annoter les données. C’est à la fois coûteux et chronophage. Projet d'apprentissage supervisé ML 80% du temps a été investi dans l'acquisition et le nettoyage des données pour la formation du modèle.
Par conséquent, les recherches récentes en apprentissage profond se sont concentrées sur la réduction des exigences de supervision dans la formation des modèles. À cette fin, plusieurs méthodes ont été proposées, telles que l’apprentissage semi-supervisé, l’apprentissage non supervisé et l’apprentissage auto-supervisé.
Dans l’apprentissage semi-supervisé, une petite quantité de données étiquetées et une grande quantité de données non étiquetées sont utilisées pour former un modèle profond. Dans l’apprentissage non supervisé, le modèle tente de comprendre des données non structurées sans aucune étiquette de données.
L’apprentissage auto-supervisé (SSL) adopte une approche légèrement différente.
Comme pour l’apprentissage non supervisé, des données non structurées sont fournies en entrée au modèle. Cependant, le modèle annote les données lui-même et les étiquettes prédites avec une grande confiance sont utilisées comme vérité fondamentale dans les itérations futures de la formation du modèle.
Cela améliore continuellement les poids du modèle pour faire de meilleures prédictions. L’efficacité des méthodes SSL par rapport aux méthodes supervisées traditionnelles a attiré l’attention de plusieurs chercheurs en vision par ordinateur.
L’une des techniques les plus anciennes et les plus populaires utilisées dans SSL est l’apprentissage contrastif, qui utilise des exemples « positifs » et « négatifs » pour guider un modèle d’apprentissage profond.
L'apprentissage contrastif a depuis été développé davantage et est désormais utilisé dans des environnements entièrement supervisés et semi-supervisés et améliore les performances des techniques de pointe existantes.
Cadre pour l'apprentissage contrastif
Il existe trois mécanismes de travail populaires des cadres d’apprentissage contrastifs proposés par les chercheurs en apprentissage profond et en vision par ordinateur dans la littérature récente.
1.SimCLR
Le modèle SimCLR, développé par Google Brain, est un cadre pour l'apprentissage contrastif des représentations visuelles. SimCLR est proposé pour résoudre les problèmes d'apprentissage auto-supervisé et semi-supervisé via l'apprentissage contrastif.
Son principe de fonctionnement de base consiste à utiliser la perte de contraste dans l’espace latent pour maximiser la cohérence entre différentes versions améliorées du même échantillon.
2. NNCLR
La plupart des algorithmes d’apprentissage contrastif discriminant les instances entraînent l’encodeur à être invariant aux transformations prédéfinies de la même instance.
Alors que la plupart des méthodes considèrent différentes vues de la même image comme des valeurs positives pour la perte de contraste, le cadre d'apprentissage contrastif du voisin le plus proche (NNCLR) développé dans cet article tente d'utiliser des valeurs positives provenant d'autres instances de l'ensemble de données, c'est-à-dire en utilisant différentes images de l'ensemble de données. La même classe, plutôt que de valoriser la même image.
3. PCL
L'apprentissage contrastif prototype (PCL) est une méthode d'apprentissage de représentation non supervisée qui combine l'apprentissage contrastif avec le clustering. PCL apprend les fonctionnalités de bas niveau pour la tâche de discrimination d'instance et code également la structure sémantique découverte grâce au clustering dans l'espace d'intégration appris.
Références
【1】https://www.v7labs.com/blog/contrastive-learning-guide#ten-contrastive-learning-frameworks