Recherche d'architecture neurale multimodale profonde

La conception de réseaux neuronaux efficaces est fondamentalement importante dans l’apprentissage profond multimodal. La plupart des travaux existants se concentrent sur une seule tâche et conçoivent manuellement des architectures neuronales, qui sont fortement spécifiques à cette tâche et difficiles à généraliser à d'autres. Dans cet article, nous proposons un cadre généralisé de recherche d'architecture neuronale profonde multimodale (MMnas) adapté à diverses tâches d'apprentissage multimodal. Étant donné une entrée multimodale, nous définissons tout d'abord un ensemble d'opérations primitives, puis construisons un modèle fondamental unifié basé sur une architecture encodeur-décodeur profonde, où chaque bloc encodeur ou décodeur correspond à une opération sélectionnée dans un ensemble prédéfini d'opérations. Sur ce modèle fondamental unifié, nous ajoutons des têtes spécifiques à chaque tâche afin de traiter différentes tâches d'apprentissage multimodal. En utilisant un algorithme de recherche d'architecture basé sur le gradient, les architectures optimales pour différentes tâches sont apprises de manière efficace. Des études d'ablation étendues, une analyse approfondie et des résultats expérimentaux comparatifs montrent que le réseau MMnasNet obtenu dépasse significativement les approches les plus avancées existantes sur trois tâches d'apprentissage multimodal (sur plus de cinq jeux de données), notamment la réponse à des questions visuelles, la correspondance image-texte et le repérage visuel.