HyperAIHyperAI

Command Palette

Search for a command to run...

Objekterkennung mit flexiblen Ausdrücken: Befreiung der Objekterkennung durch flexible Beschreibungen

Chi Xie Zhao Zhang Yixuan Wu Feng Zhu Rui Zhao Shuang Liang

Zusammenfassung

Die Objekterkennung auf der Grundlage von Sprachinformation ist eine beliebte Aufgabe, die Open-Vocabulary-Objekterkennung (OVD) und Referenzausdrucksverstehen (REC) umfasst. In dieser Arbeit erweitern wir diese Aufgaben zu einer praktischeren Einstellung, der sogenannten Beschriebenen Objekterkennung (DOD), indem wir Kategorienamen für OVD zu flexiblen Sprachaussagen erweitern und die Beschränkung von REC überwinden, dass nur vorbestehende Objekte verankert werden können. Wir legen den Forschungsgrundstein für DOD durch die Erstellung eines Datensatzes zur Beschreibungserkennung (D3D^3D3). Dieser Datensatz enthält flexible Sprachaussagen, sei es kurze Kategorienamen oder längere Beschreibungen, und annotiert alle beschriebenen Objekte auf allen Bildern ohne Ausnahmen. Durch die Bewertung früherer Stand-of-the-Art-Methoden auf D3D^3D3 identifizieren wir einige Problemfälle, bei denen aktuelle REC-, OVD- und bifunktionale Methoden versagen. REC-Methoden haben Schwierigkeiten mit Konfidenzwerten, der Ablehnung negativer Instanzen und Multiziel-Szenarien, während OVD-Methoden mit langen und komplexen Beschreibungen kämpfen. Neuere bifunktionale Methoden funktionieren auch nicht gut bei DOD aufgrund ihrer getrennten Trainingsprozeduren und Inferenzstrategien für REC- und OVD-Aufgaben. Aufbauend auf den genannten Erkenntnissen schlagen wir eine Baseline vor, die REC-Methoden durch die Neukonstruktion der Trainingsdaten und die Einführung einer binären Klassifikationsunteraufgabe erheblich verbessert und bestehende Methoden übertreffen kann. Daten und Code sind unter https://github.com/shikras/d-cube verfügbar, verwandte Arbeiten werden in https://github.com/Charles-Xie/awesome-described-object-detection verfolgt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp