Mehrgranularer Generator für zeitliche Aktionsvorschläge

Die Generierung zeitlicher Aktionen ist eine wichtige Aufgabe, die darauf abzielt, Videoabschnitte zu lokalisieren, die menschliche Aktionen in einem ungeschnittenen Video enthalten. In dieser Arbeit schlagen wir einen Multi-Granularitätsgenerator (MGG) vor, um zeitliche Aktionenvorschläge aus verschiedenen Granularitätsperspektiven zu erstellen, wobei auf visuelle Videofeatures mit eingebetteten Positionsinformationen zurückgegriffen wird. Zunächst schlagen wir ein bilineares Matching-Modell vor, um die reichhaltigen lokalen Informationen innerhalb der Videosequenz zu nutzen. Anschließend werden zwei Komponenten kombiniert, nämlich der Segmentvorschlags-Produzent (SPP) und der Frame-Aktionswert-Produzent (FAP), um die Aufgabe der Generierung zeitlicher Aktionenvorschläge auf zwei unterschiedlichen Granularitäten durchzuführen. Der SPP betrachtet das gesamte Video in Form einer Features-Pyramide und generiert Segmentvorschläge aus einer groben Perspektive, während der FAP eine feinere Aktionsbewertung für jeden Videobildausschnitt durchführt. Unser vorgeschlagener MGG kann end-to-end trainiert werden. Durch die zeitliche Anpassung der Segmentvorschläge mit feingranularen Frame-Aktionswertinformationen erreicht der MGG eine überlegene Leistung im Vergleich zu den besten bisher bekannten Methoden auf den öffentlichen Datensätzen THUMOS-14 und ActivityNet-1.3. Darüber hinaus verwenden wir vorhandene Aktionklassifizierer zur Klassifikation der von MGG generierten Vorschläge, was zu erheblichen Verbesserungen im Vergleich zu konkurrierenden Methoden bei der Videodetektion führt.