HyperAIHyperAI
vor 2 Monaten

OV-DINO: Einheitliche Erkennung offener Vokabularien mit sprachbewusster selektiver Fusion

Hao Wang; Pengzhen Ren; Zequn Jie; Xiao Dong; Chengjian Feng; Yinlong Qian; Lin Ma; Dongmei Jiang; Yaowei Wang; Xiangyuan Lan; Xiaodan Liang
OV-DINO: Einheitliche Erkennung offener Vokabularien mit sprachbewusster selektiver Fusion
Abstract

Die Erkennung offener Vokabulare ist eine herausfordernde Aufgabe aufgrund der Anforderung, Objekte basierend auf Klassennamen zu erkennen, einschließlich solcher, die während des Trainings nicht vorgekommen sind. Bestehende Methoden haben durch Vorabtraining und Pseudo-Labeling auf diversen großen Datensätzen starke Fähigkeiten zur Null-Shot-Erkennung gezeigt. Diese Ansätze stoßen jedoch auf zwei Hauptprobleme: (i) Wie kann Datenrauschen effektiv aus dem Pseudo-Labeling entfernt werden? und (ii) Wie kann die sprachliche Kapazität effizient genutzt werden, um die regionale multimodale Fusion und Ausrichtung zu verbessern? Um diesen Herausforderungen entgegenzukommen, schlagen wir eine neuartige einheitliche Methode für die Erkennung offener Vokabulare vor, die OV-DINO genannt wird. OV-DINO wird in einem einheitlichen Framework mit sprachlicher selektiver Fusion auf diversen großen Datensätzen vortrainiert. Insbesondere führen wir einen einheitlichen Datenintegrationspipeline (UniDI) ein, um das End-to-End-Training zu ermöglichen und Rauschen aus der Generierung von Pseudo-Labels durch die Vereinigung verschiedener Datenquellen in ein detektionszentriertes Datenformat zu eliminieren. Darüber hinaus schlagen wir ein Modul zur sprachbewussten selektiven Fusion (LASF) vor, um die multimodale Ausrichtung durch einen sprachbewussten Abfrageauswahl- und Fusionprozess zu verbessern. Wir bewerten die Leistung des vorgeschlagenen OV-DINO an bekannten Benchmarks für die Erkennung offener Vokabulare und erzielen dabei den Stand der Technik mit einem AP von 50,6 % am COCO-Benchmark und 40,1 % am LVIS-Benchmark in einer Null-Shot-Art. Des Weiteren erreicht das an COCO feintuneierte OV-DINO einen AP von 58,4 %, was viele bestehende Methoden mit demselben Backbone übertreffen lässt. Der Code für OV-DINO ist unter https://github.com/wanghao9610/OV-DINO verfügbar.

OV-DINO: Einheitliche Erkennung offener Vokabularien mit sprachbewusster selektiver Fusion | Neueste Forschungsarbeiten | HyperAI