vor 8 Monaten

Zusammenfassung

Die Tiefen-/Thermalinformation ist vorteilhaft für die Erkennung von auffälligen Objekten mit herkömmlichen RGB-Bildern. Allerdings ist in Modellen zur detektion von auffälligen Objekten in dualen Modalitäten (SOD) die Robustheit gegenüber verrauschten Eingaben und fehlenden Modalitäten entscheidend, wird aber selten untersucht. Um dieses Problem anzugehen, stellen wir den \textbf{Co}nditional Dropout und das \textbf{LA}nguage-getriebene (\textbf{CoLA}) Framework vor, das aus zwei Kernkomponenten besteht. 1) Language-driven Quality Assessment (LQA): Durch die Nutzung eines vortrainierten visuellen-linguistischen Modells mit einem Prompt-Lerner kalibriert das LQA die Bildbeiträge neu, ohne zusätzliche Qualitätsannotierungen zu benötigen. Dieser Ansatz mildert die Auswirkungen verrauschter Eingaben effektiv. 2) Conditional Dropout (CD): Eine Lernmethode, um die Anpassungsfähigkeit des Modells in Szenarien mit fehlenden Modalitäten zu stärken, während seine Leistung bei vollständigen Modalitäten erhalten bleibt. Der CD dient als ein einsteckbares Trainingsverfahren, das fehlende Modalitäten als Bedingungen behandelt und so die gesamte Robustheit verschiedener dual-modaler SOD-Modelle erhöht. Umfangreiche Experimente zeigen, dass das vorgeschlagene Verfahren sowohl bei vollständigen als auch bei fehlenden Modalitäten den aktuellen Stand der Technik in dual-modalen SOD-Modellen übertrifft. Wir werden den Quellcode bei Annahme veröffentlichen.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Objekterkennung

Semantische Segmentierung

Multimodal

Computervision

Aufgabe

Shuang Hao; Chunlin Zhong; He Tang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Objekterkennung

Semantische Segmentierung

Multimodal

Computervision

Aufgabe

Shuang Hao; Chunlin Zhong; He Tang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

CoLA: Bedingte Dropout und sprachgesteuerte robuste dualmodale Salienzobjekterkennung | Paper | HyperAI

Command Palette

CoLA: Bedingte Dropout und sprachgesteuerte robuste dualmodale Salienzobjekterkennung

Shuang Hao; Chunlin Zhong; He Tang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

CoLA: Bedingte Dropout und sprachgesteuerte robuste dualmodale Salienzobjekterkennung

Shuang Hao; Chunlin Zhong; He Tang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

CoLA: Bedingte Dropout und sprachgesteuerte robuste dualmodale Salienzobjekterkennung

Shuang Hao; Chunlin Zhong; He Tang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters