Freilegung des Potenzials des Segment Anything Model 2 für die RGB-Thermal-Semantische Segmentierung mit Sprachführung

Die Wahrnehmungsfähigkeit roboter Systeme beruht auf der Reichhaltigkeit des Datensatzes. Obwohl der Segment Anything Model 2 (SAM2), der auf großen Datensätzen trainiert wurde, ein starkes Potenzial in Wahrnehmungsaufgaben zeigt, erschwert sein inhärentes Trainingsparadigma dessen Anwendbarkeit für RGB-T-Aufgaben. Um diese Herausforderungen zu bewältigen, schlagen wir SHIFNet vor – ein neuartiges, auf SAM2 basierendes hybrides Interaktionsparadigma, das das Potenzial von SAM2 durch sprachliche Anleitung für eine effiziente RGB-Thermal-Wahrnehmung erschließt. Unser Framework besteht aus zwei zentralen Komponenten: (1) einem semantikbewussten, multimodalen Fusionsmodul (SACF), das die Beitragsgewichte der Modalitäten durch textgesteuerte Affinitätslernen dynamisch ausbalanciert und somit den inhärenten RGB-Bias von SAM2 überwindet; (2) einem heterogenen Prompt-Decoder (HPD), der die globale semantische Information durch ein semantisches Verbesserungsmodul verstärkt und anschließend mit Kategorieweben kombiniert, um die semantische Konsistenz zwischen den Modalitäten zu verstärken. Mit 32,27 Mio. trainierbaren Parametern erreicht SHIFNet state-of-the-art Segmentierungsergebnisse auf öffentlichen Benchmarks, wobei es 89,8 % auf PST900 und 67,8 % auf FMB erzielt. Das Framework ermöglicht die Anpassung vortrainierter großer Modelle an RGB-T-Segmentierungsaufgaben und verringert effektiv die hohen Kosten der Datensammlung, wodurch roboter Systemen umfassende Wahrnehmungsfähigkeiten verliehen werden. Der Quellcode wird öffentlich unter https://github.com/iAsakiT3T/SHIFNet verfügbar gemacht.