Désenchevêtrement auto-supervisé à plusieurs vues pour le débruitage d’images généralisé

Grâce à ses améliorations significatives de performance, le paradigme du deep learning est devenu un outil standard pour les dénoiseurs d’images modernes. Bien que des performances prometteuses aient été obtenues sur des distributions de bruit déjà observées, les approches existantes souffrent souvent d’un faible pouvoir de généralisation face à des types de bruit inédits ou à des bruits réels généraux. Cette limitation est compréhensible, car les modèles sont conçus pour apprendre une application par paires (par exemple, d’une image bruitée vers sa version nette). Dans cet article, nous proposons au contraire d’apprendre à désentrelacer l’image bruitée, sous l’hypothèse intuitive selon laquelle différentes versions corrompues d’une même image nette partagent un espace latent commun. Nous introduisons un cadre d’apprentissage auto-supervisé permettant d’atteindre cet objectif sans jamais observer l’image nette latente. En prenant deux versions différentes d’une même image corrompue comme entrée, l’approche proposée, nommée désentrelacement auto-supervisé à plusieurs vues (MeD), apprend à séparer les caractéristiques latentes nettes du bruit et à reconstruire l’image originale. Une analyse expérimentale approfondie sur des bruits synthétiques et réels démontre l’infériorité de la méthode proposée par rapport aux approches auto-supervisées antérieures, en particulier pour des types de bruit inédits. Sur des données réelles, la méthode proposée dépasse même les approches supervisées de plus de 3 dB.