HyperAIHyperAI
il y a 2 mois

Apprentissage semi-supervisé en monde ouvert

Cao, Kaidi ; Brbic, Maria ; Leskovec, Jure
Apprentissage semi-supervisé en monde ouvert
Résumé

Une limitation fondamentale de l'application de l'apprentissage semi-supervisé dans des contextes réels est l'hypothèse selon laquelle les données de test non étiquetées ne contiennent que des classes déjà rencontrées dans les données d'entraînement étiquetées. Cependant, cette hypothèse est rarement vérifiée pour les données en milieu réel, où des instances appartenant à des classes inconnues peuvent apparaître au moment du test. Dans cet article, nous introduisons un nouveau cadre d'apprentissage semi-supervisé ouvert qui formalise l'idée que des classes inconnues peuvent se présenter dans les données de test non étiquetées. Dans ce nouveau cadre, l'objectif est de résoudre le déséquilibre de distribution des classes entre les données étiquetées et non étiquetées, en classifiant chaque instance d'entrée soit dans une des classes existantes, soit en initialisant une nouvelle classe inconnue au moment du test. Pour relever ce défi complexe, nous proposons ORCA, une approche d'apprentissage profond intégrée qui introduit un mécanisme de marge adaptatif à l'incertitude afin de contourner le biais en faveur des classes connues, causé par l'apprentissage plus rapide de caractéristiques discriminantes pour ces classes par rapport aux classes inconnues. Ainsi, ORCA réduit l'écart entre la variance intra-classe des classes connues et celle des classes inconnues. Les expériences menées sur des jeux de données de classification d'images et sur un jeu de données d'annotation de cellules individuelles montrent que ORCA surpassent constamment les méthodes alternatives, réalisant une amélioration de 25 % sur les classes connues et une amélioration de 96 % sur les classes inconnues du jeu de données ImageNet.

Apprentissage semi-supervisé en monde ouvert | Articles de recherche récents | HyperAI