Vorab trainierter Bildverarbeitungstransformer

Da die Rechenleistung moderner Hardware stark zunimmt, haben vortrainierte Deep-Learning-Modelle (z.B. BERT, GPT-3), die auf großen Datensätzen trainiert wurden, ihre Effektivität gegenüber herkömmlichen Methoden bewiesen. Der große Fortschritt ist hauptsächlich der Darstellungsfähigkeit von Transformer und dessen abgewandelten Architekturen zuzuschreiben. In dieser Arbeit untersuchen wir Aufgaben des niedrigstufigen Bildverarbeitens (z.B. Rauschreduzierung, Superresolution und Entfernung von Regen) und entwickeln ein neues vortrainiertes Modell, nämlich den Bildverarbeitungs-Transformer (IPT). Um die Fähigkeiten des Transformers maximal auszuschöpfen, schlagen wir vor, den bekannten ImageNet-Benchmark zu nutzen, um eine große Anzahl von beschädigten Bildpaaren zu generieren. Das IPT-Modell wird auf diesen Bildern mit mehreren Köpfen und Schwänzen trainiert. Zudem wird kontrastives Lernen eingeführt, um eine gute Anpassung an verschiedene Bildverarbeitungsaufgaben zu ermöglichen. Das vortrainierte Modell kann daher nach dem Feinjustieren effizient für die gewünschte Aufgabe eingesetzt werden. Mit nur einem vortrainierten Modell übertrifft IPT die aktuellen Stand-of-the-Art-Methoden in verschiedenen niedrigstufigen Benchmarks. Der Quellcode ist unter https://github.com/huawei-noah/Pretrained-IPT und https://gitee.com/mindspore/mindspore/tree/master/model_zoo/research/cv/IPT verfügbar.