HyperAIHyperAI
vor 3 Monaten

Zur effizienten Transformer-basierten Bildvortrainierung für niedrige-Level-Vision

Wenbo Li, Xin Lu, Shengju Qian, Jiangbo Lu, Xiangyu Zhang, Jiaya Jia
Zur effizienten Transformer-basierten Bildvortrainierung für niedrige-Level-Vision
Abstract

Die Vortrainierung hat zahlreiche State-of-the-Art-Ergebnisse in der hochstufigen Computer Vision hervorgebracht, während bisher nur wenige Versuche unternommen wurden, zu untersuchen, wie die Vortrainierung in Bildverarbeitungssystemen wirkt. In diesem Artikel entwickeln wir transformerbasierte Vortrainierungsansätze, die verschiedene niedrigstufige Aufgaben verbessern. Um die Auswirkungen der Vortrainierung umfassend zu analysieren, entwerfen wir eine Reihe systematischer Evaluierungswerkzeuge, die deren Einfluss auf interne Darstellungen aufdecken. Die Beobachtungen zeigen, dass die Vortrainierung in niedrigstufigen Aufgaben äußerst unterschiedliche Rollen spielt. So führt die Vortrainierung beispielsweise dazu, dass in der Super-Resolution (SR) höhere Schichten mehr lokale Informationen erhalten, was zu erheblichen Leistungssteigerungen führt, während sie in der Rauschunterdrückung kaum Einfluss auf die internen Merkmalsdarstellungen hat und somit nur geringe Verbesserungen erzielt. Weiterhin untersuchen wir verschiedene Vortrainierungsstrategien und stellen fest, dass die Vortrainierung über mehrere verwandte Aufgaben hinweg effektiver und dateneffizienter ist als andere Ansätze. Schließlich erweitern wir unsere Studie auf unterschiedliche Datenskalen und Modellgrößen sowie auf Vergleiche zwischen Transformer- und CNN-basierten Architekturen. Auf Basis dieser Untersuchung gelingt es uns, state-of-the-art-Modelle für mehrere niedrigstufige Aufgaben erfolgreich zu entwickeln. Der Quellcode ist unter https://github.com/fenglinglwb/EDT verfügbar.

Zur effizienten Transformer-basierten Bildvortrainierung für niedrige-Level-Vision | Forschungsarbeiten | HyperAI