Classification fine à entropie maximale

La classification visuelle fine (FGVC) est un problème important en vision par ordinateur, caractérisé par une faible diversité visuelle entre les différentes classes, et nécessitant souvent l'intervention d'experts pour l'annotation des données. En exploitant cette notion de faible diversité visuelle, nous revisitons l'apprentissage à entropie maximale dans le cadre de la classification fine, en proposant une méthode d'entraînement qui maximise l'entropie de la distribution de probabilité de sortie lors de l'entraînement de réseaux de neurones convolutifs pour des tâches de FGVC. Nous fournissons à la fois une justification théorique et empirique de notre approche, et obtenons des performances de pointe sur une variété de tâches de classification en FGVC, pouvant potentiellement être étendues à tout type de tâche d'adaptation fine (fine-tuning). Notre méthode est robuste aux variations des hyperparamètres, à la quantité de données d'entraînement et au niveau de bruit dans les étiquettes d'entraînement, ce qui en fait un outil précieux pour de nombreux problèmes similaires.