HyperAIHyperAI
vor 3 Monaten

Semantic2Graph: graphbasierte multimodale Merkmalsfusion für die Aktionssegmentierung in Videos

Junbin Zhang, Pei-Hsuan Tsai, Meng-Hsun Tsai
Semantic2Graph: graphbasierte multimodale Merkmalsfusion für die Aktionssegmentierung in Videos
Abstract

Die Video-Action-Segmentation wird in vielen Bereichen weit verbreitet eingesetzt. Die meisten bisherigen Studien haben videobasierte Vision-Modelle für diesen Zweck verwendet. Diese basieren jedoch häufig auf einem großen Rezeptionsfeld sowie auf Methoden wie LSTM oder Transformer, um langfristige Abhängigkeiten innerhalb von Videos zu erfassen, was erhebliche Anforderungen an die Rechenressourcen mit sich bringt. Um diese Herausforderung zu bewältigen, wurde ein graphenbasiertes Modell vorgeschlagen. Allerdings zeichnen sich bisherige graphenbasierte Ansätze durch geringere Genauigkeit aus. Daher stellt diese Studie einen graphenstrukturierten Ansatz namens Semantic2Graph vor, um langfristige Abhängigkeiten in Videos zu modellieren, wodurch die Rechenkosten reduziert und die Genauigkeit erhöht werden. Wir konstruieren eine Graphstruktur auf Frame-Ebene für Videos. Temporale Kanten werden eingesetzt, um zeitliche Beziehungen und die Aktionenreihenfolge innerhalb der Videos zu modellieren. Zudem haben wir positive und negative semantische Kanten mit entsprechenden Kantengewichten entworfen, um sowohl langfristige als auch kurzfristige semantische Beziehungen in Videoaktionen zu erfassen. Knotenattribute umfassen eine Vielzahl multimodaler Merkmale, die aus Videoinhalten, Graphstrukturen und Label-Texten extrahiert wurden und visuelle, strukturelle sowie semantische Hinweise beinhalten. Um diese multimodalen Informationen effektiv zu integrieren, verwenden wir ein Graph Neural Network (GNN)-Modell, um die multimodalen Merkmale zu fusions- und zur Klassifikation der Aktionen auf Knotenebene zu nutzen. Experimentelle Ergebnisse zeigen, dass Semantic2Graph state-of-the-art Methoden hinsichtlich der Leistung übertrifft, insbesondere auf Benchmark-Datensätzen wie GTEA und 50Salads. Mehrere Ablationsstudien bestätigen zudem die Wirksamkeit semantischer Merkmale zur Verbesserung der Modellleistung. Insbesondere ermöglicht die Einbeziehung semantischer Kanten in Semantic2Graph die kosteneffiziente Erfassung langfristiger Abhängigkeiten und unterstreicht somit die Nützlichkeit des Ansatzes bei der Bewältigung der Herausforderungen durch begrenzte Rechenressourcen in videobasierten Vision-Modellen.