ReAct: Temporale Aktionsdetektion mit relationalen Abfragen

Diese Arbeit zielt darauf ab, die zeitliche Aktionsdetektion (Temporal Action Detection, TAD) mithilfe eines Encoder-Decoder-Frameworks mit Aktionsabfragen zu verbessern, das an DETR angelehnt ist und bei der Objektdetektion großes Erfolg gezeigt hat. Allerdings weist dieses Framework bei direkter Anwendung auf TAD mehrere Probleme auf: eine unzureichende Exploration der Beziehungen zwischen den Abfragen im Decoder, eine ungenügende Klassifikationstraining aufgrund einer begrenzten Anzahl an Trainingsbeispielen sowie zuverlässige Klassifikationswerte während der Inferenz. Um diese Herausforderungen anzugehen, schlagen wir zunächst eine relationale Aufmerksamkeitsmechanismus im Decoder vor, der die Aufmerksamkeit zwischen den Abfragen basierend auf deren Beziehungen steuert. Zudem stellen wir zwei neue Verlustfunktionen vor, um das Training der Aktionsklassifikation zu fördern und zu stabilisieren. Schließlich schlagen wir vor, während der Inferenz die Lokalisationsqualität jeder Aktionsabfrage vorherzusagen, um hochwertige Abfragen von minderwertigen zu unterscheiden. Die vorgeschlagene Methode, ReAct genannt, erreicht die bisher beste Leistung auf THUMOS14 und weist dabei deutlich geringere Rechenkosten im Vergleich zu früheren Ansätzen auf. Zudem werden umfassende Ablationsstudien durchgeführt, um die Wirksamkeit jedes einzelnen vorgeschlagenen Bausteins zu verifizieren. Der Quellcode ist unter https://github.com/sssste/React verfügbar.