HyperAIHyperAI
vor 2 Monaten

Objekterkennung mit flexiblen Ausdrücken: Befreiung der Objekterkennung durch flexible Beschreibungen

Xie, Chi ; Zhang, Zhao ; Wu, Yixuan ; Zhu, Feng ; Zhao, Rui ; Liang, Shuang
Objekterkennung mit flexiblen Ausdrücken: Befreiung der Objekterkennung durch flexible Beschreibungen
Abstract

Die Objekterkennung auf der Grundlage von Sprachinformation ist eine beliebte Aufgabe, die Open-Vocabulary-Objekterkennung (OVD) und Referenzausdrucksverstehen (REC) umfasst. In dieser Arbeit erweitern wir diese Aufgaben zu einer praktischeren Einstellung, der sogenannten Beschriebenen Objekterkennung (DOD), indem wir Kategorienamen für OVD zu flexiblen Sprachaussagen erweitern und die Beschränkung von REC überwinden, dass nur vorbestehende Objekte verankert werden können. Wir legen den Forschungsgrundstein für DOD durch die Erstellung eines Datensatzes zur Beschreibungserkennung ($D^3$). Dieser Datensatz enthält flexible Sprachaussagen, sei es kurze Kategorienamen oder längere Beschreibungen, und annotiert alle beschriebenen Objekte auf allen Bildern ohne Ausnahmen. Durch die Bewertung früherer Stand-of-the-Art-Methoden auf $D^3$ identifizieren wir einige Problemfälle, bei denen aktuelle REC-, OVD- und bifunktionale Methoden versagen. REC-Methoden haben Schwierigkeiten mit Konfidenzwerten, der Ablehnung negativer Instanzen und Multiziel-Szenarien, während OVD-Methoden mit langen und komplexen Beschreibungen kämpfen. Neuere bifunktionale Methoden funktionieren auch nicht gut bei DOD aufgrund ihrer getrennten Trainingsprozeduren und Inferenzstrategien für REC- und OVD-Aufgaben. Aufbauend auf den genannten Erkenntnissen schlagen wir eine Baseline vor, die REC-Methoden durch die Neukonstruktion der Trainingsdaten und die Einführung einer binären Klassifikationsunteraufgabe erheblich verbessert und bestehende Methoden übertreffen kann. Daten und Code sind unter https://github.com/shikras/d-cube verfügbar, verwandte Arbeiten werden in https://github.com/Charles-Xie/awesome-described-object-detection verfolgt.

Objekterkennung mit flexiblen Ausdrücken: Befreiung der Objekterkennung durch flexible Beschreibungen | Neueste Forschungsarbeiten | HyperAI