HyperAIHyperAI
vor 2 Monaten

simCrossTrans: Eine einfache Modellübertragung zwischen Modalitäten für die Objekterkennung mit ConvNets oder Vision-Transformern

Shen, Xiaoke ; Stamos, Ioannis
simCrossTrans: Eine einfache Modellübertragung zwischen Modalitäten für die Objekterkennung mit ConvNets oder Vision-Transformern
Abstract

Das Transferlernen wird in der Computer Vision (CV) und der Natural Language Processing (NLP) weit verbreitet eingesetzt und hat große Erfolge erzielt. Die meisten Transferlernsysteme basieren auf derselben Modalität (z.B. RGB-Bild in CV und Text in NLP). Allerdings sind Systeme des Cross-Modality Transfer Learnings (CMTL) selten. In dieser Arbeit untersuchen wir das CMTL von 2D zu 3D-Sensoren, um die obere Leistungsgrenze von reinen 3D-Sensorsystemen zu erforschen, die bei der Roboternavigation eine entscheidende Rolle spielen und sich gut in schwach beleuchteten Szenarien bewährt haben. Während die meisten CMTL-Pipelines von 2D zu 3D-Vision kompliziert und auf Faltungsneuronalen Netzen (ConvNets) basieren, ist unser Ansatz einfach umzusetzen, erweiterbar und beruht sowohl auf ConvNets als auch auf Visionstransformatoren (ViTs): 1) Durch die Umwandlung von Punktwolken in Pseudo-Bilder können wir ein fast identisches Netzwerk aus vortrainierten Modellen basierend auf 2D-Bildern verwenden. Dies macht unser System einfach umzusetzen und erweiterbar. 2) Kürzlich haben ViTs gute Leistungen und Robustheit gegenüber Verdeckungen gezeigt, einer der Hauptgründe für schlechte Leistungen von 3D-Visionssystemen. Wir haben sowohl ViT als auch ConvNet mit ähnlichen Modellgrößen untersucht, um den Leistungsunterschied zu analysieren. Unser Ansatz heißt simCrossTrans: einfaches Cross-Modality Transfer Learning mit ConvNets oder ViTs. Experimente am SUN RGB-D Datensatz zeigen: Mit simCrossTrans erreichen wir absolute Leistungssteigerungen von $13{,}2\,\%$ und $16{,}1\,\%$ basierend auf ConvNets und ViTs jeweils getrennt. Wir beobachteten außerdem, dass das ViT-basierte System $9{,}7\,\%$ besser abschneidet als das ConvNet-basierte System, was die Stärke von simCrossTrans mit ViT unterstreicht. Das simCrossTrans mit ViTs übertrifft den bisherigen Stand der Technik (SOTA) um einen beträchtlichen Marginalwert von $+15{,}4\,\%$ mAP50. Im Vergleich zum vorherigen SOTA der 2D-Detektion basierend auf RGB-Bildern hat unser rein tiefenbildbasiertes System nur einen Abstand von $1\,\%$. Der Code, die Trainings-/Inferenz-Logs sowie die Modelle sind öffentlich verfügbar unter https://github.com/liketheflower/simCrossTrans

simCrossTrans: Eine einfache Modellübertragung zwischen Modalitäten für die Objekterkennung mit ConvNets oder Vision-Transformern | Neueste Forschungsarbeiten | HyperAI