HyperAIHyperAI
vor 16 Tagen

OVMR: Open-Vocabulary Recognition mit multimodalen Referenzen

Zehong Ma, Shiliang Zhang, Longhui Wei, Qi Tian
OVMR: Open-Vocabulary Recognition mit multimodalen Referenzen
Abstract

Die Herausforderung der offenen-Vokabular-Erkennung besteht darin, dass das Modell keinerlei Informationen über neue Kategorien besitzt, auf die es angewendet wird. Bisherige Ansätze haben verschiedene Methoden vorgeschlagen, Kategorieinformationen in das Modell einzubetten, beispielsweise durch Few-Shot-Finetuning oder durch die Bereitstellung von Kategorienamen oder textuellen Beschreibungen für Vision-Sprache-Modelle. Finetuning ist zeitaufwendig und mindert die Generalisierungsfähigkeit des Modells. Textuelle Beschreibungen können mehrdeutig sein und visuelle Details nicht ausreichend erfassen. In dieser Arbeit wird die offene-Vokabular-Erkennung aus einer anderen Perspektive angegangen, indem auf multimodale Hinweise zurückgegriffen wird, die aus textuellen Beschreibungen und Beispielbildern bestehen. Unser Ansatz, OVMR genannt, integriert zwei innovative Komponenten, um eine robusteres Einfügen von Kategorieinformationen zu erreichen. Zunächst wird ein multimodaler Klassifikator dynamisch durch Ergänzung textueller Beschreibungen mit Bildbeispielen generiert. Anschließend wird ein präferenzbasiertes Verfeinerungsmodul eingesetzt, um ein- und multimodale Klassifikatoren zu fusionieren, mit dem Ziel, Probleme durch geringwertige Beispielbilder oder ungenaue textuelle Beschreibungen zu verringern. Das vorgeschlagene OVMR ist ein plug-and-play-Modul und funktioniert gut mit Beispielbildern, die zufällig aus dem Internet abgerufen wurden. Umfassende Experimente haben die vielversprechende Leistungsfähigkeit von OVMR nachgewiesen, beispielsweise übertrifft es bestehende Methoden in verschiedenen Szenarien und Konfigurationen. Der Quellcode ist öffentlich unter \href{https://github.com/Zehong-Ma/OVMR}{https://github.com/Zehong-Ma/OVMR} verfügbar.

OVMR: Open-Vocabulary Recognition mit multimodalen Referenzen | Neueste Forschungsarbeiten | HyperAI