Suppression du biais dans les classificateurs multi-modaux : régularisation par maximisation des entropies fonctionnelles

De nombreux jeux de données récents contiennent une variété de modalités de données différentes, par exemple des images, des questions et des réponses dans le cadre de la question visuelle (VQA). Lors de l'entraînement de classificateurs profonds sur ces jeux de données multimodaux, les modalités sont exploitées à différentes échelles : certaines contribuent plus facilement aux résultats de classification que d'autres. Ce phénomène est sous-optimal, car le classificateur présente intrinsèquement un biais en faveur d’un sous-ensemble de modalités. Pour atténuer ce défaut, nous proposons une nouvelle régularisation fondée sur l’entropie fonctionnelle. Intuitivement, ce terme encourage à équilibrer la contribution de chaque modalité au résultat de classification. Toutefois, l’application de la régularisation par entropie fonctionnelle s’avère complexe. Pour y remédier, nous avons développé une méthode fondée sur l’inégalité de log-Sobolev, qui borne l’entropie fonctionnelle par l’information de Fisher fonctionnelle. Intuitivement, cette approche maximise la quantité d’information apportée par les modalités. Sur deux jeux de données multimodales exigeants, VQA-CPv2 et SocialIQ, nous obtenons des résultats de pointe tout en exploitant de manière plus uniforme les différentes modalités. En outre, nous démontrons l’efficacité de notre méthode sur le jeu de données Colored MNIST.