UniMD: Auf dem Weg zur Vereinigung von Moment-Retrieval und temporalen Aktionsdetektion

Die Temporale Aktionserkennung (TAD) konzentriert sich auf die Erkennung vordefinierter Aktionen, während das Moment-Retrieval (MR) darauf abzielt, Ereignisse, die durch offene natürliche Sprache beschrieben werden, in ungeschnittenen Videos zu identifizieren. Obwohl sie sich auf unterschiedliche Ereignisse fokussieren, beobachten wir eine signifikante Verbindung zwischen ihnen. Zum Beispiel enthalten die meisten Beschreibungen im MR mehrere Aktionen aus dem TAD. In dieser Arbeit untersuchen wir das potentielle Synergiepotential zwischen TAD und MR. Zunächst schlagen wir eine einheitliche Architektur vor, die als Unified Moment Detection (UniMD) bezeichnet wird, für sowohl TAD als auch MR. Diese transformiert die Eingaben der beiden Aufgaben – Aktionen für TAD oder Ereignisse für MR – in einen gemeinsamen Einbettungsraum und nutzt zwei neuartige, anfragedependente Decoder, um eine einheitliche Ausgabe von Klassifikationsscores und zeitlichen Segmenten zu generieren. Zweitens erforschen wir die Effektivität zweier Aufgabenfusions-Lernansätze, des Pre-Trainings und Co-Trainings, um den gegenseitigen Nutzen zwischen TAD und MR zu erhöhen. Umfangreiche Experimente zeigen, dass das vorgeschlagene Fusions-Lernschema es den beiden Aufgaben ermöglicht, sich gegenseitig zu unterstützen und bessere Ergebnisse als separat trainierte Ansätze zu erzielen. Beeindruckenderweise erreicht UniMD state-of-the-art-Ergebnisse auf drei gepaarten Datensätzen: Ego4D, Charades-STA und ActivityNet. Unser Code ist unter https://github.com/yingsen1/UniMD verfügbar.