Détection différentiable implicite des valeurs aberrantes pour une analyse profonde multimodale robuste

Les modèles de réseaux profonds sont souvent purement inductifs tant lors de l’entraînement que lors de l’inférence sur des données inédites. Lorsqu’ils sont utilisés pour la prédiction, ces modèles peuvent échouer à capturer des informations sémantiques importantes ainsi que des dépendances implicites présentes dans les jeux de données. Des avancées récentes ont montré qu’en combinant plusieurs modalités dans des contextes de vision et de langage à grande échelle, on peut améliorer la compréhension et les performances de généralisation. Toutefois, à mesure que la taille des modèles augmente, le fine-tuning et le déploiement deviennent extrêmement coûteux en ressources computationnelles, même pour un petit nombre de tâches en aval. En outre, il reste encore incertain comment spécifier de manière compatible avec la rétropropagation des connaissances de domaine ou des connaissances modales préalables, en particulier dans des environnements à grande échelle et bruyants. Pour relever ces défis, nous proposons une alternative simplifiée consistant à combiner des caractéristiques provenant de réseaux profonds préentraînés avec des connaissances sémantiques explicites facilement accessibles. Afin d’éliminer les connaissances explicites non pertinentes qui ne correspondent pas bien aux images, nous introduisons une couche implicite de détection différentiable de données hors distribution (OOD). Cette couche aborde la détection d’anomalies en résolvant des points fixes d’une fonction différentiable, en utilisant la dernière itérée du solveur de point fixe pour la rétropropagation. En pratique, nous appliquons notre modèle à plusieurs tâches en aval de vision et de langage, notamment la réponse à des questions visuelles, le raisonnement visuel et la recherche d’images et de textes sur divers jeux de données. Nos expérimentations montrent qu’il est possible de concevoir des modèles capables de produire des performances comparables aux résultats les plus avancés tout en nécessitant significativement moins d’échantillons et un temps d’entraînement réduit. Nos modèles et code sont disponibles à l’adresse suivante : https://github.com/ellenzhuwang/implicit_vkood