Grenzbeachtende Kaskaden-Netzwerke für die zeitliche Aktionssegmentierung

Die Erkennung menschlicher Aktionsabschnitte in ungeschnittenen Videos bleibt aufgrund von Grenzambiguitäten und Übersegmentierungsproblemen weiterhin herausfordernd. Um diese Herausforderungen anzugehen, präsentieren wir ein neues grenzbehaftetes Kaskaden-Netzwerk, das zwei neuartige Komponenten einführt. Erstens entwickeln wir ein neues Kaskadenparadigma, genannt Stage Cascade, das es unserem Modell ermöglicht, adaptiv empfindliche Felder zu besitzen und zu unsicheren Frames zuverlässigere Vorhersagen zu liefern. Zweitens entwerfen wir eine allgemeine und begründete Glättungsoperation, die als lokale Barrieren-Pooling bezeichnet wird, um lokale Vorhersagen durch Ausnutzung semantischer Grenzinformationen zu aggregieren. Darüber hinaus können diese beiden Komponenten gemeinsam end-to-end feinjustiert werden. Wir führen Experimente auf drei anspruchsvollen Datensätzen durch: 50Salads, GTEA und Breakfast-Datensatz, wobei unser Framework signifikant die Leistung der derzeit besten Ansätze übertrifft. Der Quellcode ist unter https://github.com/MCG-NJU/BCN verfügbar.