Instruct-IPT: All-in-One Bildverarbeitungs-Transformer durch Gewichtsmodulation

Aufgrund der unerschwinglichen Größe und der intensiven Rechenkosten von Low-Level-Vision-Modellen sind All-in-One-Modelle, die gleichzeitig eine Reihe von Low-Level-Vision-Aufgaben bearbeiten sollen, in den letzten Jahren populär geworden. Dennoch sind bestehende All-in-One-Modelle hinsichtlich des Aufgabenbereichs und der Leistung begrenzt. Um diese Einschränkungen zu überwinden, schlagen wir Instruct-IPT vor – ein All-in-One-Bildverarbeitungs-Transformer (IPT), der effektiv verschiedene Bildrestaurationsaufgaben mit großen Unterschieden zwischen den Aufgaben bearbeiten kann, wie z.B. Entrauschen, Entverschärfung, Regenentfernung, Dunstentfernung und Schneeentfernung. Während die meisten Forschungsarbeiten Methoden zur Anpassung von Merkmalen vorschlagen, zeigen wir deren Scheitern bei der Bearbeitung hoch unterschiedlicher Aufgaben auf und plädieren für eine Gewichtsmodulation, die Gewichte an spezifische Aufgaben anpasst. Erstens suchen wir nach aufgabenspezifischen Gewichten und führen darauf aufgabenspezifische Verzerrungen ein. Zweitens führen wir eine Ranganalyse durch, um eine gute Kompressionsstrategie zu entwickeln, und führen eine Niedrigrangzerlegung der Verzerrungen durch. Drittens schlagen wir ein synchrones Training vor, das das aufgabenunabhängige Backbone-Modell und die aufgabenspezifischen Verzerrungen gleichzeitig aktualisiert. Auf diese Weise wird das Modell angewiesen, sowohl allgemeine als auch aufgabenspezifische Kenntnisse zu erlernen. Durch unsere einfache aber effektive Methode, die den IPT zu Aufgabenexperten macht, kann Instruct-IPT besser zusammenarbeiten und charakteristische Unterschiede zwischen den Aufgaben bei geringen Kosten bewältigen. Als zusätzliche Funktion ermöglichen wir es Instruct-IPT, menschliche Eingaben zu verarbeiten. Wir haben Experimente durchgeführt, um die Effektivität unserer Methode bei verschiedenen Aufgaben zu demonstrieren, und unsere Methode erfolgreich auch auf Diffusionsdenoisern erweitert. Der Code ist unter https://github.com/huawei-noah/Pretrained-IPT verfügbar.