Expansion non supervisée de domaine pour la catégorisation visuelle

L'extension de la catégorisation visuelle à un domaine nouveau sans nécessiter d'annotations supplémentaires a toujours été un intérêt majeur pour l'intelligence multimédia. Précédemment, ce défi a été abordé par l'adaptation non supervisée de domaine (UDA). Étant donné des données étiquetées d'un domaine source et des données non étiquetées d'un domaine cible, l'UDA cherche à trouver une représentation profonde qui soit à la fois discriminante et invariante au domaine. Bien que l'UDA se concentre sur le domaine cible, nous soutenons que les performances dans les deux domaines, source et cible, sont importantes, car en pratique on ne sait pas d'où provient l'exemple de test. Dans cet article, nous étendons l'UDA en proposant une nouvelle tâche appelée extension non supervisée de domaine (UDE), qui vise à adapter un modèle profond pour le domaine cible avec ses données non étiquetées tout en maintenant les performances du modèle sur le domaine source. Nous proposons l'extension de domaine par distillation de connaissances (KDDE) comme méthode générale pour la tâche UDE. Son module d'adaptation de domaine peut être instancié avec n'importe quel modèle existant. Nous développons un mécanisme d'apprentissage basé sur la distillation de connaissances, permettant à KDDE d'optimiser un objectif unique où les domaines source et cible sont traités de manière équivalente. Des expériences approfondies sur deux grands jeux de benchmark, à savoir Office-Home et DomainNet, montrent que KDDE se compare favorablement à quatre baselines compétitives, à savoir DDC, DANN, DAAN et CDAN, pour les tâches UDA et UDE. Notre étude révèle également que les modèles UDA actuels améliorent leurs performances sur le domaine cible au prix d'une perte notable des performances sur le domaine source.