HyperAIHyperAI

Command Palette

Search for a command to run...

Lokalisierte Bild-Sprach-Zuordnung für die Erkennung von Objekten mit offenen Vokabularien

María A. Bravo Sudhanshu Mittal Thomas Brox

Zusammenfassung

In dieser Arbeit schlagen wir eine Methode für die offene Vokabular-Objekterkennung vor, die auf Bild-Beschreibungspaaren basiert und lernt, sowohl neuartige als auch bekannte Objektklassen zu erkennen. Es handelt sich um einen zweistufigen Trainingsansatz: Zunächst wird eine standortgeführte Bild-Beschreibungspaar-Matching-Technik verwendet, um Klassifizierungsbezeichnungen für neuartige und bekannte Klassen in schwach überwachter Weise zu lernen. Im zweiten Schritt wird das Modell unter Verwendung von Annotationen der bekannten Klassen spezialisiert, um die Objekterkennungsaufgabe zu erfüllen. Wir zeigen, dass ein einfaches Sprachmodell besser geeignet ist als ein großes kontextualisiertes Sprachmodell zur Erkennung neuer Objekte. Darüber hinaus führen wir eine Technik zur Konsistenzregulierung ein, um die Informationen aus den Bild-Beschreibungspaaren besser auszunutzen. Unsere Methode zeichnet sich durch eine günstige Dateneffizienz aus und übertrifft vergleichbare Ansätze für die offene Vokabular-Objekterkennung. Der Quellcode ist unter https://github.com/lmb-freiburg/locov verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Lokalisierte Bild-Sprach-Zuordnung für die Erkennung von Objekten mit offenen Vokabularien | Paper | HyperAI