CoLA: Bedingte Dropout und sprachgesteuerte robuste dualmodale Salienzobjekterkennung

Die Tiefen-/Thermalinformation ist vorteilhaft für die Erkennung von auffälligen Objekten mit herkömmlichen RGB-Bildern. Allerdings ist in Modellen zur detektion von auffälligen Objekten in dualen Modalitäten (SOD) die Robustheit gegenüber verrauschten Eingaben und fehlenden Modalitäten entscheidend, wird aber selten untersucht. Um dieses Problem anzugehen, stellen wir den \textbf{Co}nditional Dropout und das \textbf{LA}nguage-getriebene (\textbf{CoLA}) Framework vor, das aus zwei Kernkomponenten besteht. 1) Language-driven Quality Assessment (LQA): Durch die Nutzung eines vortrainierten visuellen-linguistischen Modells mit einem Prompt-Lerner kalibriert das LQA die Bildbeiträge neu, ohne zusätzliche Qualitätsannotierungen zu benötigen. Dieser Ansatz mildert die Auswirkungen verrauschter Eingaben effektiv. 2) Conditional Dropout (CD): Eine Lernmethode, um die Anpassungsfähigkeit des Modells in Szenarien mit fehlenden Modalitäten zu stärken, während seine Leistung bei vollständigen Modalitäten erhalten bleibt. Der CD dient als ein einsteckbares Trainingsverfahren, das fehlende Modalitäten als Bedingungen behandelt und so die gesamte Robustheit verschiedener dual-modaler SOD-Modelle erhöht. Umfangreiche Experimente zeigen, dass das vorgeschlagene Verfahren sowohl bei vollständigen als auch bei fehlenden Modalitäten den aktuellen Stand der Technik in dual-modalen SOD-Modellen übertrifft. Wir werden den Quellcode bei Annahme veröffentlichen.