HyperAIHyperAI
vor 17 Tagen

ASPnet: Action Segmentation mit geteilter-privater Darstellung mehrerer Datenquellen

{Danail Stoyanov, Imanol Luengo, Abdolrahim Kadkhodamohammadi, Beatrice van Amsterdam}
ASPnet: Action Segmentation mit geteilter-privater Darstellung mehrerer Datenquellen
Abstract

Die meisten aktuell fortschrittlichen Methoden zur Aktionssegmentierung basieren entweder auf einzelnen Eingabemodalitäten oder auf einer naiven Fusion mehrerer Datensourcen. Eine effektive Fusion komplementärer Informationen könnte jedoch die Segmentierungsmodelle stärken und sie robuster gegenüber Sensornoise sowie genauer bei kleineren Trainingsdatensätzen machen. Um die multimodale Repräsentationslernung für die Aktionssegmentierung zu verbessern, schlagen wir vor, die versteckten Merkmale eines mehrströmigen Segmentierungsmodells in modality-übergreifende Komponenten – welche gemeinsame Informationen über die verschiedenen Datensourcen enthalten – und private Komponenten zu entkoppeln. Anschließend nutzen wir eine Aufmerksamkeits-Bottleneck-Struktur, um langfristige zeitliche Abhängigkeiten in den Daten zu erfassen, während die Entkoppelung in aufeinanderfolgenden Verarbeitungsschichten erhalten bleibt. Evaluierungen an den Datensätzen 50salads, Breakfast und RARP45 zeigen, dass unser multimodaler Ansatz sowohl bei multiview- als auch bei multimodalen Datensourcen verschiedene Baselines zur Datenfusion übertrifft und Ergebnisse erzielt, die mit den besten bisherigen Ansätzen konkurrieren oder sie sogar übertreffen. Zudem ist unser Modell robuster gegenüber additivem Sensornoise und erreicht selbst bei geringerem Trainingsdatenvolumen Leistungen, die mit starken Video-basierten Baselines vergleichbar sind.