HyperAIHyperAI
vor 2 Monaten

MiPa: Gemischte Patch-Infrarot-Sichtbarkeitsmodalität Unabhängige Objekterkennung

Medeiros, Heitor R. ; Latortue, David ; Granger, Eric ; Pedersoli, Marco
MiPa: Gemischte Patch-Infrarot-Sichtbarkeitsmodalität Unabhängige Objekterkennung
Abstract

In realistischen Szenarien kann die Verwendung mehrerer Modalitäten wie sichtbar (RGB) und infrarot (IR) die Leistung von Vorhersageaufgaben wie Objekterkennung (OD) erheblich verbessern. Multimodales Lernen ist ein gängiger Ansatz, bei dem mehrere modalspezifische Encoder und ein Fusionsmodul verwendet werden, um die Leistung zu steigern. In dieser Arbeit untersuchen wir einen alternativen Ansatz zur Nutzung von RGB- und IR-Modalitäten, bei dem nur eine der beiden Modalitäten von einem einzelnen gemeinsamen Vision-Encoder wahrgenommen wird. Diese realistische Einstellung erfordert einen geringeren Speicherbedarf und ist besser für Anwendungen wie autonome Fahrt und Überwachung geeignet, die häufig auf RGB- und IR-Daten basieren. Allerdings kann bei der Ausbildung eines einzelnen Encoders auf mehreren Modalitäten eine Modalität die andere überwiegen, was zu ungleichmäßigen Erkennungsergebnissen führt. Diese Arbeit untersucht, wie man effizient sowohl RGB- als auch IR-Modalitäten nutzen kann, um einen gemeinsamen transformerbasierten OD-Vision-Encoder zu trainieren und dabei die Auswirkungen einer Modalitätsungleichgewichtigkeit abzumildern. Dafür stellen wir eine neuartige Trainingsmethode vor, bei der Patchs (MiPa) aus den beiden Modalitäten gemischt werden, kombiniert mit einem patchweisen modalitätsspeziesunabhängigen Modul zur Lernung einer gemeinsamen Repräsentation beider Modalitäten. Unsere Experimente zeigen, dass MiPa eine Repräsentation lernen kann, die wettbewerbsfähige Ergebnisse auf traditionellen RGB/IR-Benchmarks erzielt, während es nur eine einzelne Modalität während der Inferenz benötigt. Unser Code ist unter folgender URL verfügbar: https://github.com/heitorrapela/MiPa.请注意,"modalitätsspeziesunabhängigen" 是一个拼写错误,正确的应该是 "modalitätsspezifisch-unabhängigen" 或者更常见的 "modalitätsagnostischen". 因此,建议将上述翻译中的 "modalitätsspeziesunabhängigen" 更改为 "modalitätsagnostischen". 以下是修正后的版本:In realistischen Szenarien kann die Verwendung mehrerer Modalitäten wie sichtbar (RGB) und infrarot (IR) die Leistung von Vorhersageaufgaben wie Objekterkennung (OD) erheblich verbessern. Multimodales Lernen ist ein gängiger Ansatz, bei dem mehrere modalspezifische Encoder und ein Fusionsmodul verwendet werden, um die Leistung zu steigern. In dieser Arbeit untersuchen wir einen alternativen Ansatz zur Nutzung von RGB- und IR-Modalitäten, bei dem nur eine der beiden Modalitäten von einem einzelnen gemeinsamen Vision-Encoder wahrgenommen wird. Diese realistische Einstellung erfordert einen geringeren Speicherbedarf und ist besser für Anwendungen wie autonome Fahrt und Überwachung geeignet, die häufig auf RGB- und IR-Daten basieren. Allerdings kann bei der Ausbildung eines einzelnen Encoders auf mehreren Modalitäten eine Modalität die andere überwiegen, was zu ungleichmäßigen Erkennungsergebnissen führt. Diese Arbeit untersucht, wie man effizient sowohl RGB- als auch IR-Modalitäten nutzen kann, um einen gemeinsamen transformerbasierten OD-Vision-Encoder zu trainieren und dabei die Auswirkungen einer Modalitätsungleichgewichtigkeit abzumildern. Dafür stellen wir eine neuartige Trainingsmethode vor, bei der Patchs (MiPa) aus den beiden Modalitäten gemischt werden, kombiniert mit einem patchweisen modalitätsagnostischen Modul zur Lernung einer gemeinsamen Repräsentation beider Modalitäten. Unsere Experimente zeigen, dass MiPa eine Repräsentation lernen kann, die wettbewerbsfähige Ergebnisse auf traditionellen RGB/IR-Benchmarks erzielt, während es nur eine einzelne Modalität während der Inferenz benötigt. Unser Code ist unter folgender URL verfügbar: https://github.com/heitorrapela/MiPa.

MiPa: Gemischte Patch-Infrarot-Sichtbarkeitsmodalität Unabhängige Objekterkennung | Neueste Forschungsarbeiten | HyperAI