d-SNE : Adaptation de domaine par intégration stochastique des voisins

D’un côté, les réseaux de neurones profonds sont efficaces pour apprendre à partir de grands ensembles de données. De l’autre, ils sont peu efficaces en termes d’utilisation des données : ils nécessitent souvent de grandes quantités de données étiquetées afin d’entraîner leurs nombreux paramètres. L’entraînement de réseaux plus grands et plus profonds s’avère difficile sans une régularisation adéquate, en particulier lorsque le jeu de données est de petite taille. Par ailleurs, la collecte de données bien annotées est coûteuse, longue et souvent irréalisable. Une approche courante pour régulariser ces réseaux consiste à entraîner le modèle avec davantage de données provenant d’un autre jeu de données représentatif. Toutefois, cette stratégie peut entraîner des effets néfastes si les statistiques de ce jeu de données représentatif diffèrent sensiblement de celles de la cible. Ce problème provient du phénomène de décalage de domaine : les données issues d’un domaine décalé peuvent ne pas produire des caractéristiques adaptées lorsqu’un extracteur de caractéristiques issu du domaine représentatif est utilisé. Plusieurs techniques d’adaptation de domaine ont été proposées par le passé pour résoudre ce problème. Dans cet article, nous proposons une nouvelle technique d’adaptation de domaine, appelée d-SNE, qui utilise de manière ingénieuse des méthodes d’embedding stochastique des voisinages ainsi qu’une nouvelle distance modifiée de Hausdorff. La technique proposée est apprenable de bout en bout, ce qui la rend particulièrement adaptée à l’entraînement des réseaux de neurones. Des expériences étendues démontrent que d-SNE surpasser les états de l’art actuels et se révèle robuste aux variations entre différents jeux de données, même dans les scénarios d’apprentissage un-shot et semi-supervisé. En outre, d-SNE montre une capacité remarquable à généraliser à plusieurs domaines simultanément.