ClawCraneNet: Ausnutzung objektbasierter Relationen für die textbasierte Videosegmentierung

Textbasierte Video-Segmentierung ist eine anspruchsvolle Aufgabe, bei der Objekte, die in natürlicher Sprache beschrieben werden, aus Videos segmentiert werden müssen. Sie erfordert im Wesentlichen eine semantische Verständnisfähigkeit sowie eine feinabgestimmte Video-Interpretation. Bisherige Ansätze integrieren Sprachrepräsentationen in Segmentierungsmodelle auf einer bottom-up-Weise, wodurch die Wechselwirkung zwischen Vision und Sprache lediglich innerhalb lokaler Rezeptionsfelder von ConvNets stattfindet. Wir argumentieren, dass eine solche Interaktion nicht hinreichend realisiert wird, da das Modell aufgrund partieller Beobachtungen kaum Beziehungen auf Objekt-Ebene aufbauen kann – ein Umstand, der im Widerspruch zur Beschreibungslogik natürlicher Sprache bzw. Referenzausdrücke steht. Tatsächlich beschreiben Menschen ein Zielobjekt häufig anhand seiner Beziehungen zu anderen Objekten, was ohne die Betrachtung des gesamten Videos oft schwer verständlich ist. Um dieses Problem anzugehen, stellen wir einen neuartigen top-down-Ansatz vor, der die menschliche Vorgehensweise bei der Segmentierung eines Objekts unter sprachlicher Anleitung nachahmt. Zunächst identifizieren wir alle möglichen Kandidatenobjekte im Video und wählen anschließend das referierte Objekt durch die Analyse der Beziehungen zwischen diesen hochlevel-Objekten aus. Drei Arten von objektorientierten Beziehungen werden untersucht, um eine präzise Beziehungsinterpretation zu ermöglichen: räumliche Beziehung, textgesteuerte semantische Beziehung und zeitliche Beziehung. Umfangreiche Experimente auf den Datensätzen A2D Sentences und J-HMDB Sentences zeigen, dass unsere Methode die bisherigen State-of-the-Art-Verfahren deutlich übertrifft. Qualitative Ergebnisse belegen zudem, dass unsere Ergebnisse besser nachvollziehbar sind.