GRIT: Schnelleres und besseres Bildbeschreibungstransformers mit dualen visuellen Merkmalen

Aktuelle State-of-the-Art-Methoden für Bildbeschreibung setzen regionenbasierte Merkmale ein, da diese informationsreiche Objekt-Level-Informationen liefern, die für die Beschreibung des Inhalts von Bildern entscheidend sind; sie werden üblicherweise durch einen Objektdetektor wie Faster R-CNN extrahiert. Diese Ansätze weisen jedoch mehrere Probleme auf, darunter mangelnde kontextuelle Information, das Risiko fehlerhafter Detektionen sowie hohe Rechenkosten. Die ersten beiden Probleme könnten durch die zusätzliche Verwendung von gitterbasierten Merkmalen adressiert werden. Wie jedoch diese beiden Merkmalsarten effektiv extrahiert und fusioniert werden sollen, bleibt bisher unerforscht. In dieser Arbeit wird eine rein Transformer-basierte neuronale Architektur vorgestellt, die als GRIT (Grid- and Region-based Image captioning Transformer) bezeichnet wird, welche die beiden visuellen Merkmale effizient nutzt, um präzisere Bildbeschreibungen zu generieren. GRIT ersetzt den in früheren Methoden verwendeten CNN-basierten Detektor durch einen auf DETR basierenden, was die Rechenzeit erheblich reduziert. Zudem ermöglicht sein monolithischer Aufbau, der ausschließlich aus Transformers besteht, eine end-to-end-Trainierbarkeit des Modells. Diese innovative Architektur sowie die Integration der dualen visuellen Merkmale führen zu einer signifikanten Leistungssteigerung. Die experimentellen Ergebnisse auf mehreren Bildbeschreibungsbenchmarks zeigen, dass GRIT gegenüber früheren Ansätzen sowohl in Bezug auf Genauigkeit als auch auf Geschwindigkeit überlegen ist.