MeViS: Eine umfangreiche Benchmarksuite für die Videosegmentierung mit Bewegungsausdrücken

Dieses Papier strebt nach einer bewegungsorientierten Video-Segmentierung, die sich auf die Segmentierung von Objekten im Videoinhalt basierend auf einem Satz konzentriert, der die Bewegung der Objekte beschreibt. Bestehende Datensätze für referenzielle Videoobjekte fokussieren sich in der Regel auf auffällige Objekte und verwenden Sprachausdrücke, die übermäßige statische Attribute enthalten, die es potenziell ermöglichen könnten, das Zielobjekt in einem einzelnen Bildausschnitt zu identifizieren. Diese Datensätze unterstreichen die Bedeutung von Bewegungen im Videoinhalt für sprachgesteuerte Videoobjektsegmentierung nicht ausreichend. Um die Machbarkeit der Verwendung von Bewegungsbeschreibungen zur Lokalisierung und Segmentierung von Objekten in Videos zu untersuchen, schlagen wir einen umfangreichen Datensatz vor, den wir MeViS nennen. Dieser Datensatz enthält zahlreiche Bewegungsbeschreibungen, um Zielobjekte in komplexen Umgebungen zu kennzeichnen. Wir haben fünf bestehende Methoden für referenzielle Videoobjektsegmentierung (RVOS) evaluiert und eine umfassende Vergleichsanalyse auf dem MeViS-Datensatz durchgeführt. Die Ergebnisse zeigen, dass aktuelle RVOS-Methoden das Problem der bewegungsorientierten Video-Segmentierung nicht effektiv lösen können. Wir analysieren zudem die Herausforderungen und schlagen einen Baseline-Ansatz für den vorgeschlagenen MeViS-Datensatz vor. Das Ziel unseres Benchmarks ist es, eine Plattform bereitzustellen, die die Entwicklung effektiver Algorithmen zur sprachgesteuerten Video-Segmentierung unterstützt, bei denen Bewegungsbeschreibungen als primärer Hinweis für die Objektsegmentierung in komplexen Videoszenarien genutzt werden. Der vorgeschlagene MeViS-Datensatz ist unter https://henghuiding.github.io/MeViS veröffentlicht worden.