HyperAIHyperAI
vor 2 Monaten

Kontrastives Video-Darstellungslernen durch adversäre Störungen

Jue Wang; Anoop Cherian
Kontrastives Video-Darstellungslernen durch adversäre Störungen
Abstract

Feindliche Störungen (adversarial perturbations) sind rauschartige Muster, die die Daten subtil verändern können und dabei einen ansonsten genauen Klassifikator zum Scheitern bringen. In dieser Arbeit schlagen wir vor, solche Störungen in einem neuen kontrastiven Lernansatz zu verwenden, um Negative Beispiele zu erzeugen, die dann zur Erstellung verbesserteter Video-Darstellungen genutzt werden. Dazu generieren wir zunächst feindliche Störungen, die auf ein gut trainiertes tiefes Modell für die Frame-basierte Videoklassifizierung abgestimmt sind. Positive und negative Taschen (bags) werden unter Verwendung der ursprünglichen Datenmerkmale aus der gesamten Videosequenz und deren gestörten Gegenstücke erstellt. Im Gegensatz zu den klassischen Methoden des kontrastiven Lernens entwickeln wir ein binäres Klassifikationsproblem, das eine Reihe diskriminativer Hyperebenen – als Unterraum – lernt, die die beiden Taschen voneinander trennen. Dieser Unterraum wird dann als Deskriptor für das Video verwendet und als \emph{diskriminatives Subspace-Pooling} bezeichnet. Da die gestörten Merkmale zu Datenklassen gehören, die wahrscheinlich mit den ursprünglichen Merkmalen verwechselt werden, wird der diskriminative Unterraum Teile des Merkmalsraums charakterisieren, die für die ursprünglichen Daten repräsentativer sind und somit robuste Video-Darstellungen liefern können. Um solche Deskriptoren zu lernen, formulieren wir ein Unterraumlernziel auf dem Stiefel-Mannigfaltigkeit und wenden Riemannsche Optimierungsverfahren an, um es effizient zu lösen. Wir führen Experimente auf mehreren Videodatenbanken durch und zeigen Stand-der-Technik-Ergebnisse (state-of-the-art results).