HyperAIHyperAI
vor 2 Monaten

Einheitlicher Objekterkennungsdetektor für verschiedene Modalitäten basierend auf Visionstransformatoren

Shen, Xiaoke ; Stamos, Ioannis
Einheitlicher Objekterkennungsdetektor für verschiedene Modalitäten basierend auf Visionstransformatoren
Abstract

Traditionelle Systeme erfordern in der Regel unterschiedliche Modelle zur Verarbeitung verschiedener Modalitäten, wie zum Beispiel eines Modells für RGB-Bilder und ein anderes für Tiefenbilder. Neueste Forschungen haben gezeigt, dass ein Modell für eine Modalität mittels Cross-Modality Transfer Learning angepasst werden kann, um eine andere Modalität zu verarbeiten. In dieser Arbeit erweitern wir diesen Ansatz, indem wir Cross-/Inter-Modality Transfer Learning mit einem Vision Transformer kombinieren, um einen vereinten Detektor zu entwickeln, der über verschiedene Modalitäten hinweg überlegene Leistungen erzielt. Unser Forschungsansatz sieht eine Anwendungssituation in der Robotik vor, bei der das vereinte System nahtlos zwischen RGB-Kameras und Tiefensensoren bei unterschiedlichen Beleuchtungsbedingungen wechselt. Von Bedeutung ist dabei, dass das System keine Änderungen an der Modellarchitektur oder Gewichtsaktualisierungen benötigt, um diesen reibungslosen Übergang zu ermöglichen. Insbesondere verwendet das System den Tiefensensor bei schwachen Beleuchtungsbedingungen (Nachts) und sowohl die RGB-Kamera als auch den Tiefensensor oder nur die RGB-Kamera in gut beleuchteten Umgebungen. Wir evaluieren unser vereintes Modell auf dem SUN RGB-D Datensatz und zeigen, dass es vergleichbare oder bessere Ergebnisse im Hinblick auf mAP50 im Vergleich zu den neuesten Methoden in der Kategorie SUNRGBD16 erzielt sowie vergleichbare Leistungen im Point Cloud Only-Modus. Zudem führen wir eine neuartige Inter-Modality Mixing Methode ein, die es unserem Modell ermöglicht, deutlich bessere Ergebnisse als frühere Methoden zu erzielen. Wir stellen unseren Code einschließlich Trainings-/Inferenzprotokollen und Modellcheckpoints bereit, um Wiederverwendbarkeit und weitere Forschung zu erleichtern.\url{https://github.com/liketheflower/UODDM}

Einheitlicher Objekterkennungsdetektor für verschiedene Modalitäten basierend auf Visionstransformatoren | Neueste Forschungsarbeiten | HyperAI