Side-Tuning Multimodal pour la Classification de Documents

Dans cet article, nous proposons d'exploiter le cadre de side-tuning pour la classification multimodale de documents. Le side-tuning est une méthodologie récemment introduite pour l'adaptation des réseaux, visant à surmonter certains des défis liés aux approches antérieures. Grâce à cette technique, il devient effectivement possible de contourner la rigidité du modèle et le phénomène d'oubli catastrophique inhérent à l'apprentissage par transfert par fine-tuning. La solution proposée repose sur des architectures de deep learning standards, intégrant le cadre de side-tuning afin de combiner un modèle de base avec une paire de réseaux secondaires (side networks). Nous démontrons que le side-tuning peut être efficacement appliqué même dans des scénarios impliquant des sources de données différentes, telles que le texte et les images, dans le cadre de la classification de documents. Les résultats expérimentaux montrent que cette approche permet d’atteindre un niveau de précision supérieur à celui des méthodes de l’état de l’art pour la classification de documents.