Transformateur pré-entraîné pour le traitement d'images

Avec l'augmentation considérable de la puissance de calcul des matériels modernes, les modèles de deep learning pré-entraînés (par exemple, BERT, GPT-3), appris sur des ensembles de données à grande échelle, ont démontré leur efficacité par rapport aux méthodes conventionnelles. Les progrès significatifs sont principalement attribuables à la capacité de représentation du transformer et de ses architectures variantes. Dans cet article, nous étudions les tâches bas niveau en vision par ordinateur (par exemple, le débruitage, la sur-résolution et la suppression de pluie) et développons un nouveau modèle pré-entraîné, nommé transformer pour le traitement d'images (IPT). Pour exploiter au maximum les capacités du transformer, nous proposons d'utiliser le célèbre benchmark ImageNet pour générer une grande quantité de paires d'images corrompues. Le modèle IPT est entraîné sur ces images avec plusieurs têtes et plusieurs queues. De plus, l'apprentissage contrastif est introduit pour s'adapter efficacement à différentes tâches de traitement d'images. Ainsi, après un ajustement fin, le modèle pré-entraîné peut être utilisé efficacement pour la tâche souhaitée. Avec un seul modèle pré-entraîné, IPT surpasses les méthodes actuelles les plus avancées sur divers benchmarks bas niveau. Le code est disponible à l'adresse suivante : https://github.com/huawei-noah/Pretrained-IPT et https://gitee.com/mindspore/mindspore/tree/master/model_zoo/research/cv/IPT.