vor 16 Tagen

Schwach beschriftete Aktionslokalisierung mit Erwartung-Maximierung-Multi-Instance-Lernen

Zhekun Luo, Devin Guillory, Baifeng Shi, Wei Ke, Fang Wan, Trevor Darrell, Huijuan Xu

Abstract

Die schwach beschriftete Aktionslokalisation erfordert, ein Modell zu trainieren, das Aktionssegmente in Videos lokalisiert, wobei lediglich eine Video-Level-Aktionsbezeichnung zur Verfügung steht. Dies kann im Rahmen des Multiple Instance Learning (MIL)-Ansatzes gelöst werden, bei dem eine „Bag“ (Video) mehrere „Instanzen“ (Aktionssegmente) enthält. Da lediglich das Label der Bag bekannt ist, liegt die zentrale Herausforderung darin, festzulegen, welche Schlüsselinstanzen innerhalb der Bag das Label der Bag auslösen. Die meisten bisherigen Modelle verwenden auf Aufmerksamkeit basierende Ansätze, bei denen Aufmerksamkeitsgewichte genutzt werden, um aus den Instanzen eine Repräsentation der Bag zu generieren, die anschließend über die Klassifikation der Bag trainiert wird. Diese Ansätze verletzen jedoch implizit die MIL-Annahme, dass Instanzen in negativen Bags gleichmäßig negativ sein sollten. In dieser Arbeit modellieren wir die Zuweisung der Schlüsselinstanzen explizit als versteckte Variable und nutzen einen Erwartung-Maximierung (EM)-Rahmen. Wir leiten zwei Pseudolabel-Generierungsschemata zur Modellierung der E- und M-Schritte ab und optimieren iterativ die untere Schranke der Likelihood. Wir zeigen, dass unser EM-MIL-Ansatz sowohl das Lernziel als auch die MIL-Annahmen präziser modelliert. Das Verfahren erreicht eine state-of-the-art-Leistung auf zwei etablierten Benchmarks, THUMOS14 und ActivityNet1.2.