Ausrichtung des Bag of Regions für die offene-Vokabular-Objektdetektion

Vortrainierte Vision-Sprache-Modelle (VLMs) lernen, visuelle und sprachliche Darstellungen auf großskaligen Datensätzen zu alignen, wobei jedes Bild-Text-Paar in der Regel eine Sammlung semantischer Konzepte enthält. Bisherige Open-Vocabulary-Objektdetektoren richten jedoch nur die Regionsembeddings einzelner Regionen mit den entsprechenden Features aus den VLMs aus. Dieser Ansatz lässt die zusammengesetzte Struktur semantischer Konzepte in einer Szene ungenutzt, obwohl diese Struktur möglicherweise implizit von den VLMs erlernt wird. In dieser Arbeit schlagen wir vor, die Embeddings einer Regionensammlung über einzelne Regionen hinaus zu alignen. Unser Ansatz gruppiert kontextuell miteinander verbundene Regionen zu einer Sammlung. Die Embeddings der Regionen innerhalb einer Sammlung werden wie Wörter in einem Satz behandelt und an den Textencoder eines VLMs gesendet, um die Sammlung-der-Regionen-Embedding zu erhalten, das daraufhin so gelernt wird, mit den entsprechenden Features eines fixierten VLMs zu alignen. Angewandt auf den üblicherweise verwendeten Faster R-CNN erreicht unser Ansatz gegenüber den bisher besten Ergebnissen eine Verbesserung um 4,6 Box AP50 und 2,8 Mask AP auf den neuen Kategorien der Open-Vocabulary-COCO- und LVIS-Benchmarks, jeweils. Code und Modelle sind unter https://github.com/wusize/ovdet verfügbar.