HyperAIHyperAI

Command Palette

Search for a command to run...

ClawCraneNet: Ausnutzung objektbasierter Relationen für die textbasierte Videosegmentierung

Chen Liang Yu Wu Yawei Luo Yi Yang

Zusammenfassung

Textbasierte Video-Segmentierung ist eine anspruchsvolle Aufgabe, bei der Objekte, die in natürlicher Sprache beschrieben werden, aus Videos segmentiert werden müssen. Sie erfordert im Wesentlichen eine semantische Verständnisfähigkeit sowie eine feinabgestimmte Video-Interpretation. Bisherige Ansätze integrieren Sprachrepräsentationen in Segmentierungsmodelle auf einer bottom-up-Weise, wodurch die Wechselwirkung zwischen Vision und Sprache lediglich innerhalb lokaler Rezeptionsfelder von ConvNets stattfindet. Wir argumentieren, dass eine solche Interaktion nicht hinreichend realisiert wird, da das Modell aufgrund partieller Beobachtungen kaum Beziehungen auf Objekt-Ebene aufbauen kann – ein Umstand, der im Widerspruch zur Beschreibungslogik natürlicher Sprache bzw. Referenzausdrücke steht. Tatsächlich beschreiben Menschen ein Zielobjekt häufig anhand seiner Beziehungen zu anderen Objekten, was ohne die Betrachtung des gesamten Videos oft schwer verständlich ist. Um dieses Problem anzugehen, stellen wir einen neuartigen top-down-Ansatz vor, der die menschliche Vorgehensweise bei der Segmentierung eines Objekts unter sprachlicher Anleitung nachahmt. Zunächst identifizieren wir alle möglichen Kandidatenobjekte im Video und wählen anschließend das referierte Objekt durch die Analyse der Beziehungen zwischen diesen hochlevel-Objekten aus. Drei Arten von objektorientierten Beziehungen werden untersucht, um eine präzise Beziehungsinterpretation zu ermöglichen: räumliche Beziehung, textgesteuerte semantische Beziehung und zeitliche Beziehung. Umfangreiche Experimente auf den Datensätzen A2D Sentences und J-HMDB Sentences zeigen, dass unsere Methode die bisherigen State-of-the-Art-Verfahren deutlich übertrifft. Qualitative Ergebnisse belegen zudem, dass unsere Ergebnisse besser nachvollziehbar sind.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp