HyperAIHyperAI

Command Palette

Search for a command to run...

Ausrichtung des Bag of Regions für die offene-Vokabular-Objektdetektion

Size Wu Wenwei Zhang Sheng Jin Wentao Liu Chen Change Loy

Zusammenfassung

Vortrainierte Vision-Sprache-Modelle (VLMs) lernen, visuelle und sprachliche Darstellungen auf großskaligen Datensätzen zu alignen, wobei jedes Bild-Text-Paar in der Regel eine Sammlung semantischer Konzepte enthält. Bisherige Open-Vocabulary-Objektdetektoren richten jedoch nur die Regionsembeddings einzelner Regionen mit den entsprechenden Features aus den VLMs aus. Dieser Ansatz lässt die zusammengesetzte Struktur semantischer Konzepte in einer Szene ungenutzt, obwohl diese Struktur möglicherweise implizit von den VLMs erlernt wird. In dieser Arbeit schlagen wir vor, die Embeddings einer Regionensammlung über einzelne Regionen hinaus zu alignen. Unser Ansatz gruppiert kontextuell miteinander verbundene Regionen zu einer Sammlung. Die Embeddings der Regionen innerhalb einer Sammlung werden wie Wörter in einem Satz behandelt und an den Textencoder eines VLMs gesendet, um die Sammlung-der-Regionen-Embedding zu erhalten, das daraufhin so gelernt wird, mit den entsprechenden Features eines fixierten VLMs zu alignen. Angewandt auf den üblicherweise verwendeten Faster R-CNN erreicht unser Ansatz gegenüber den bisher besten Ergebnissen eine Verbesserung um 4,6 Box AP50 und 2,8 Mask AP auf den neuen Kategorien der Open-Vocabulary-COCO- und LVIS-Benchmarks, jeweils. Code und Modelle sind unter https://github.com/wusize/ovdet verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp