Ein verbesserter Objekterkennungsmodell für die Generierung von Szenengraphen
Mit der kontinuierlichen Verbesserung der Computer Vision wird ein höherer Verständnisgrad benötigt, um komplexere Aufgaben wie semantische Bildretrieval, Bildbeschreibung (Image Captioning) und Szenenverstehen zu lösen. Das Szenenverstehen stellt aufgrund seiner Komplexität und des Mangels an geeigneten Datenrepräsentationen ein seit langem untersuchtes Problem dar. Ein Szenengraph ist eine der leistungsfähigsten Datenrepräsentationen, die ein besseres Verständnis des Szenenkontexts ermöglicht. Die Aufgabe eines Szenengraphen besteht darin, die in einer Szene enthaltenen Objekte, deren Attribute sowie die zwischen diesen Objekten bestehenden Beziehungen zu kodieren. Da sich der Szenengraph bei anspruchsvollen Aufgaben als leistungsfähig erwiesen hat, ist die Automatisierung der Szenengraph-Erzeugung zu einer zwingenden Notwendigkeit geworden. Um präzise Szenengraphen zu generieren, wurden zahlreiche Forschungsarbeiten unternommen, die unterschiedliche Architekturen des tiefen Lernens nutzen. Gemeinsamer Bestandteil all dieser Architekturen ist die Objekterkennungsmodul, das zunächst die Objekte in dem Eingabebild lokalisiert. In dieser Arbeit schlagen wir die Verwendung der neuesten Objektdetektoren der YOLOv5-Familie für die Aufgabe der Szenengraph-Erzeugung vor. Der vorgeschlagene YOLOv5x6 erreicht mit 32,7 Prozent mittlerer Genauigkeit (mean average precision, mAP) einen State-of-the-Art-Wert im Vergleich zu früheren Arbeiten. Zudem bietet der Artikel eine Übersicht über die verschiedenen Objektdetektoren, die in der Literatur für die Szenengraph-Erzeugung eingesetzt wurden.