Lokalisierte Bild-Sprach-Zuordnung für die Erkennung von Objekten mit offenen Vokabularien

In dieser Arbeit schlagen wir eine Methode für die offene Vokabular-Objekterkennung vor, die auf Bild-Beschreibungspaaren basiert und lernt, sowohl neuartige als auch bekannte Objektklassen zu erkennen. Es handelt sich um einen zweistufigen Trainingsansatz: Zunächst wird eine standortgeführte Bild-Beschreibungspaar-Matching-Technik verwendet, um Klassifizierungsbezeichnungen für neuartige und bekannte Klassen in schwach überwachter Weise zu lernen. Im zweiten Schritt wird das Modell unter Verwendung von Annotationen der bekannten Klassen spezialisiert, um die Objekterkennungsaufgabe zu erfüllen. Wir zeigen, dass ein einfaches Sprachmodell besser geeignet ist als ein großes kontextualisiertes Sprachmodell zur Erkennung neuer Objekte. Darüber hinaus führen wir eine Technik zur Konsistenzregulierung ein, um die Informationen aus den Bild-Beschreibungspaaren besser auszunutzen. Unsere Methode zeichnet sich durch eine günstige Dateneffizienz aus und übertrifft vergleichbare Ansätze für die offene Vokabular-Objekterkennung. Der Quellcode ist unter https://github.com/lmb-freiburg/locov verfügbar.