Détection différentiable d'outliers pour une analyse profonde multimodale robuste

Souvent, les modèles de réseaux profonds sont purement inductifs durant l’entraînement et lors de l’inférence sur des données inédites. Ainsi, lorsqu’ils sont utilisés pour des prédictions, il est bien connu qu’ils échouent fréquemment à capturer les informations sémantiques et les dépendances implicites existant entre les objets (ou concepts) au niveau d’une population. De plus, il reste encore peu clair comment intégrer de manière compatible avec la rétropropagation des connaissances de domaine ou des connaissances a priori, notamment dans des contextes à grande échelle et bruités. Dans ce travail, nous proposons un modèle vision-langage end-to-end intégrant des graphes de connaissances explicites. Nous introduisons également une couche interactive hors distribution (OOD) utilisant un opérateur de réseau implicite, destinée à filtrer le bruit introduit par la base de connaissances externe. En pratique, nous appliquons notre modèle à plusieurs tâches downstream en vision et langage, telles que la réponse à des questions visuelles, le raisonnement visuel et la recherche d’images et de textes sur différentes bases de données. Nos expérimentations montrent qu’il est possible de concevoir des modèles capables de produire des résultats comparables aux états de l’art, tout en nécessitant significativement moins d’échantillons et de temps d’entraînement.