vor 8 Monaten

Zusammenfassung

Die Ableitung zuverlässiger Region-Wort-Zuordnungen aus Bild-Text-Paaren ist entscheidend für das Lernen von objektniveau-basierten visuellen und sprachlichen Repräsentationen zur Erkennung von Objekten mit offenen Vokabularen. Bestehende Methoden basieren in der Regel auf vorgefertigten oder selbsttrainierten visuellen und sprachlichen Modellen zur Zuordnung, die jedoch oft Einschränkungen in Bezug auf die Lokalisierungsgenauigkeit oder die Generalisierungsfähigkeiten haben. In dieser Arbeit schlagen wir CoDet vor, einen neuen Ansatz, der die Abhängigkeit von vorgefertigten visuellen und sprachlichen Räumen überwindet, indem er die Region-Wort-Zuordnung als ein Problem der Entdeckung gemeinsam auftretender Objekte reformuliert. Intuitiv gesehen, sollten Objekte, die einem gemeinsamen Konzept in den Bildunterschriften entsprechen, innerhalb einer Gruppe eine hohe Koexistenz aufweisen. CoDet nutzt dann visuelle Ähnlichkeiten, um diese gemeinsam auftretenden Objekte zu entdecken und sie dem gemeinsamen Konzept zuzuordnen. Ausführliche Experimente zeigen, dass CoDet überlegene Leistungen und beeindruckende Skalierbarkeit bei der Erkennung von Objekten mit offenen Vokabularen bietet. Zum Beispiel erreicht CoDet durch das Skalieren des visuellen Backbones Werte von 37,0 $\text{AP}^m_{novel}$ und 44,7 $\text{AP}^m_{all}$ auf OV-LVIS, was den bisherigen Stand der Technik (SoTA) um 4,2 $\text{AP}^m_{novel}$ und 9,8 $\text{AP}^m_{all}$ übertrifft. Der Quellcode ist unter https://github.com/CVMI-Lab/CoDet verfügbar.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Objekterkennung

Multimodale Darstellung

Ma Chuofan ; Jiang Yi ; Wen Xin ; Yuan Zehuan ; Qi Xiaojuan

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Objekterkennung

Multimodale Darstellung

Ma Chuofan ; Jiang Yi ; Wen Xin ; Yuan Zehuan ; Qi Xiaojuan

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

CoDet: Co-Occurrence-gesteuerte Region-Wort-Zuordnung für die offene Vokabular-Objekterkennung

Ma Chuofan ; Jiang Yi ; Wen Xin ; Yuan Zehuan ; Qi Xiaojuan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

CoDet: Co-Occurrence-gesteuerte Region-Wort-Zuordnung für die offene Vokabular-Objekterkennung

Ma Chuofan ; Jiang Yi ; Wen Xin ; Yuan Zehuan ; Qi Xiaojuan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

CoDet: Co-Occurrence-gesteuerte Region-Wort-Zuordnung für die offene Vokabular-Objekterkennung

Ma Chuofan ; Jiang Yi ; Wen Xin ; Yuan Zehuan ; Qi Xiaojuan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters