HyperAIHyperAI
vor 11 Tagen

Eindringen in die Detektion von außerhalb der Verteilung liegenden Daten mit visuell-sprachlichen Darstellungen

Yifei Ming, Ziyang Cai, Jiuxiang Gu, Yiyou Sun, Wei Li, Yixuan Li
Eindringen in die Detektion von außerhalb der Verteilung liegenden Daten mit visuell-sprachlichen Darstellungen
Abstract

Die Erkennung von außerhalb der Verteilung liegenden (out-of-distribution, OOD) Beispielen ist entscheidend für maschinelle Lernsysteme, die in offenen Welten eingesetzt werden. Die überwiegende Mehrheit der bestehenden OOD-Detektionsmethoden basiert auf einer einzigen Modalität (z. B. entweder Vision oder Sprache), wodurch die reichhaltige Information in multimodalen Darstellungen ungenutzt bleibt. Inspiriert durch den jüngsten Erfolg von Vision-Sprache-Vortrainingsansätzen erweitert dieser Artikel den Bereich der OOD-Detektion von einer einmodalen auf eine multimodale Herangehensweise. Insbesondere stellen wir Maximum Concept Matching (MCM) vor, eine einfache, aber effektive Zero-Shot-Methode zur OOD-Detektion, die visuelle Merkmale mit textuellen Konzepten ausrichtet. Wir liefern eine detaillierte Analyse und theoretische Erkenntnisse, um die Wirksamkeit von MCM besser zu verstehen. Umfangreiche Experimente zeigen, dass MCM eine herausragende Leistung auf einer Vielzahl realer Anwendungsaufgaben erzielt. MCM, das multimodale Vision-Sprache-Merkmale nutzt, übertrifft einen gängigen Baseline, der ausschließlich visuelle Merkmale verwendet, bei einer anspruchsvollen OOD-Aufgabe mit semantisch ähnlichen Klassen um 13,1 % (AUROC). Der Quellcode ist unter https://github.com/deeplearning-wisc/MCM verfügbar.

Eindringen in die Detektion von außerhalb der Verteilung liegenden Daten mit visuell-sprachlichen Darstellungen | Neueste Forschungsarbeiten | HyperAI