HyperAIHyperAI
vor 11 Tagen

Global2Local: Effiziente Struktur-Suche für die Video-Action-Segmentation

Shang-Hua Gao, Qi Han, Zhong-Yu Li, Pai Peng, Liang Wang, Ming-Ming Cheng
Global2Local: Effiziente Struktur-Suche für die Video-Action-Segmentation
Abstract

Die zeitlichen Rezeptionsfelder von Modellen spielen eine wichtige Rolle bei der Aktionssegmentierung. Große Rezeptionsfelder ermöglichen die Erfassung langfristiger Beziehungen zwischen Videosequenzen, während kleine Rezeptionsfelder lokale Details besser erfassen. Bisherige Ansätze konstruieren Modelle mit handkodierten Rezeptionsfeldern in den einzelnen Schichten. Kann man effektiv nach optimalen Kombinationen von Rezeptionsfeldern suchen, um die manuelle Gestaltung zu ersetzen? Um diese Frage zu beantworten, schlagen wir einen global-to-local-Suchansatz vor, um bessere Kombinationen von Rezeptionsfeldern zu finden. Unser Suchschema nutzt sowohl eine globale Suche zur Identifizierung grober Kombinationen als auch eine lokale Suche zur Feinabstimmung der Rezeptionsfeldmuster. Die globale Suche ermittelt mögliche grobe Kombinationen, die über menschlich gestaltete Muster hinausgehen. Auf Basis dieser globalen Suche entwickeln wir ein erwartungsgesteuertes, iteratives lokales Suchverfahren, um die Kombinationen effizient zu verfeinern. Unser global-to-local-Suchansatz lässt sich nahtlos in bestehende Methoden zur Aktionssegmentierung integrieren und ermöglicht eine state-of-the-art-Leistung.

Global2Local: Effiziente Struktur-Suche für die Video-Action-Segmentation | Neueste Forschungsarbeiten | HyperAI