vor 8 Monaten

Zusammenfassung

Traditionelle Systeme erfordern in der Regel unterschiedliche Modelle zur Verarbeitung verschiedener Modalitäten, wie zum Beispiel eines Modells für RGB-Bilder und ein anderes für Tiefenbilder. Neueste Forschungen haben gezeigt, dass ein Modell für eine Modalität mittels Cross-Modality Transfer Learning angepasst werden kann, um eine andere Modalität zu verarbeiten. In dieser Arbeit erweitern wir diesen Ansatz, indem wir Cross-/Inter-Modality Transfer Learning mit einem Vision Transformer kombinieren, um einen vereinten Detektor zu entwickeln, der über verschiedene Modalitäten hinweg überlegene Leistungen erzielt. Unser Forschungsansatz sieht eine Anwendungssituation in der Robotik vor, bei der das vereinte System nahtlos zwischen RGB-Kameras und Tiefensensoren bei unterschiedlichen Beleuchtungsbedingungen wechselt. Von Bedeutung ist dabei, dass das System keine Änderungen an der Modellarchitektur oder Gewichtsaktualisierungen benötigt, um diesen reibungslosen Übergang zu ermöglichen. Insbesondere verwendet das System den Tiefensensor bei schwachen Beleuchtungsbedingungen (Nachts) und sowohl die RGB-Kamera als auch den Tiefensensor oder nur die RGB-Kamera in gut beleuchteten Umgebungen. Wir evaluieren unser vereintes Modell auf dem SUN RGB-D Datensatz und zeigen, dass es vergleichbare oder bessere Ergebnisse im Hinblick auf mAP50 im Vergleich zu den neuesten Methoden in der Kategorie SUNRGBD16 erzielt sowie vergleichbare Leistungen im Point Cloud Only-Modus. Zudem führen wir eine neuartige Inter-Modality Mixing Methode ein, die es unserem Modell ermöglicht, deutlich bessere Ergebnisse als frühere Methoden zu erzielen. Wir stellen unseren Code einschließlich Trainings-/Inferenzprotokollen und Modellcheckpoints bereit, um Wiederverwendbarkeit und weitere Forschung zu erleichtern.\url{https://github.com/liketheflower/UODDM}

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Xiaoke Shen Ioannis Stamos

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Xiaoke Shen Ioannis Stamos

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Einheitlicher Objekterkennungsdetektor für verschiedene Modalitäten basierend auf Visionstransformatoren | Paper | HyperAI

Command Palette

Einheitlicher Objekterkennungsdetektor für verschiedene Modalitäten basierend auf Visionstransformatoren

Xiaoke Shen Ioannis Stamos

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Einheitlicher Objekterkennungsdetektor für verschiedene Modalitäten basierend auf Visionstransformatoren

Xiaoke Shen Ioannis Stamos

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Einheitlicher Objekterkennungsdetektor für verschiedene Modalitäten basierend auf Visionstransformatoren

Xiaoke Shen Ioannis Stamos

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters