Entkopplte Box-Vorschläge und Featurisierung mit ultrafein granularen semantischen Etiketten verbessern die Bildbeschreibung und visuelle Fragebeantwortung

Die Objekterkennung spielt eine zentrale Rolle bei aktuellen Ansätzen für visuelle Sprachaufgaben wie Bildbeschreibung (Image Captioning) und visuelle Fragebeantwortung (Visual Question Answering). Allerdings beruhen gängige Modelle wie Faster R-CNN auf einem kostenintensiven Prozess der Annotation von Ground-Truth-Werten sowohl für die Bounding Boxes als auch für deren zugehörige semantische Labels, was sie weniger geeignet für die Nutzung als Grundbaustein für Transfer Learning macht. In diesem Paper untersuchen wir den Einfluss der Entkopplung von Box-Vorschlägen und Merkmalsextraktion für nachgeschaltete Aufgaben. Der entscheidende Einblick besteht darin, dass dies ermöglicht, eine große Menge bisher für Standard-Objekterkennungsbenchmarks nicht nutzbarer annotierter Daten zu nutzen. Empirisch zeigen wir, dass dies zu effektivem Transfer Learning führt und die Leistung von Bildbeschreibungs- und visuellen Fragebeantwortungsmodellen verbessert, wie anhand öffentlich verfügbaren Benchmarks nachgewiesen wird.