Modellierung mehrfach besetzter Aktionsabhängigkeiten für die zeitliche Aktionslokalisierung

Reale Welt-Videos enthalten viele komplexe Aktionen mit inhärenten Beziehungen zwischen Aktionklassen. In dieser Arbeit stellen wir eine auf Aufmerksamkeit basierende Architektur vor, die diese Aktionenbeziehungen für die Aufgabe der zeitlichen Aktionlokalisierung in ungeschnittenen Videos modelliert. Im Gegensatz zu früheren Ansätzen, die die Video-Level-Ko-Occurrenz von Aktionen ausnutzen, unterscheiden wir zwischen Beziehungen zwischen Aktionen, die zum selben Zeitpunkt auftreten, und solchen, die zu unterschiedlichen Zeitpunkten stattfinden (d. h. solchen, die sich vor- oder nachfolgen). Wir definieren diese unterschiedlichen Beziehungen als Aktionenabhängigkeiten. Wir schlagen vor, die Leistung der Aktionenlokalisierung durch die Modellierung dieser Aktionenabhängigkeiten in einer neuartigen, auf Aufmerksamkeit basierenden Multi-Label-Aktionenabhängigkeits-(MLAD-)Schicht zu verbessern. Die MLAD-Schicht besteht aus zwei Zweigen: einem Ko-Occurrenz-Abhängigkeits-Zweig und einem zeitlichen Abhängigkeits-Zweig, die jeweils die Ko-Occurrenz-Aktionenabhängigkeiten und zeitlichen Aktionenabhängigkeiten modellieren. Wir beobachten, dass bestehende Metriken für die Multi-Label-Klassifikation nicht explizit messen, wie gut Aktionenabhängigkeiten modelliert werden, weshalb wir neuartige Metriken vorschlagen, die sowohl die Ko-Occurrenz als auch die zeitlichen Abhängigkeiten zwischen Aktionklassen berücksichtigen. Durch empirische Evaluation und umfassende Analyse zeigen wir eine verbesserte Leistung gegenüber aktuellen State-of-the-Art-Methoden auf Multi-Label-Aktionenlokalisierungs-Benchmarks (MultiTHUMOS und Charades) hinsichtlich des f-mAP und unseres vorgeschlagenen Metriken.