Zwei-Stream-Netzwerke für die schwach überwachte zeitliche Aktionslokalisierung mit semantikbewussten Mechanismen

Die schwach beschriftete zeitliche Aktionslokalisierung zielt darauf ab, Aktionsgrenzen in ungeschnittenen Videos zu detektieren, wobei lediglich videolevel-Anmerkungen zur Verfügung stehen. Die meisten bestehenden Ansätze identifizieren zeitliche Regionen, die am stärksten auf die videolevel-Klassifikation reagieren, ignorieren jedoch die semantische Konsistenz zwischen den Bildern. In dieser Arbeit vermuten wir, dass Schnitte mit ähnlichen Repräsentationen unabhängig von fehlenden Supervisionsignalen für jeden einzelnen Schnitt als derselben Aktionsklasse gelten sollten. Dementsprechend entwickeln wir ein lernbares Wörterbuch, dessen Einträge die Klassenzentroide der jeweiligen Aktionskategorien darstellen. Die Repräsentationen von Schnitten, die als dieselbe Aktionsklasse identifiziert werden, werden dazu angeleitet, nahe bei demselben Klassenzentroid zu liegen. Dies leitet das Netzwerk an, die Semantik der Bilder wahrzunehmen und unangemessene Lokalisierungen zu vermeiden. Zusätzlich schlagen wir einen zwei-Stream-Framework vor, das die Aufmerksamkeitsmechanik und die Multiple-Instance-Learning-Strategie integriert, um feinabgestimmte Hinweise und auffällige Merkmale jeweils zu extrahieren. Ihre Komplementarität ermöglicht es dem Modell, die zeitlichen Grenzen zu verfeinern. Schließlich wird das entwickelte Modell anhand der öffentlich verfügbaren Datensätze THUMOS-14 und ActivityNet-1.3 validiert, wobei umfangreiche Experimente und Analysen zeigen, dass unser Modell gegenüber bestehenden Methoden beachtliche Fortschritte erzielt.