HyperAIHyperAI
vor 11 Tagen

Groß-Fein mehrdimensionales zeitliches Faltungsnetzwerk

Dipika Singhania, Rahul Rahaman, Angela Yao
Groß-Fein mehrdimensionales zeitliches Faltungsnetzwerk
Abstract

Temporale konvolutionelle Netzwerke (Temporal Convolutional Networks, TCNs) sind eine häufig verwendete Architektur für die zeitliche Video-Segmentierung. TCNs leiden jedoch tendenziell unter Übersegmentierungsfehlern und erfordern zusätzliche Nachbearbeitungsmoduln, um Glätte und zeitliche Kohärenz zu gewährleisten. In dieser Arbeit stellen wir einen neuartigen temporalen Encoder-Decoder vor, um das Problem der Sequenzfragmentierung anzugehen. Insbesondere folgt der Decoder einer grob-zu-fein-Struktur mit einer impliziten Ensembles mehrerer zeitlicher Auflösungen. Diese Ensembles erzeugen glattere Segmentierungen, die genauer sind und besser kalibriert werden, wodurch der Bedarf an zusätzlichen Nachbearbeitungsmoduln entfällt. Darüber hinaus verbessern wir das Training durch eine Multi-Resolution-Feature-Augmentation-Strategie, um die Robustheit gegenüber unterschiedlichen zeitlichen Auflösungen zu erhöhen. Schließlich schlagen wir eine Aktionsverlustfunktion vor, die Fehlklassifizierungen auf Videoebene bestraft, um die Architektur zu unterstützen und weitere zeitliche Kohärenz zu fördern. Experimente zeigen, dass unsere eigenständige Architektur zusammen mit unserer neuartigen Feature-Augmentation-Strategie und dem neuen Verlust die State-of-the-Art-Leistung auf drei Benchmarks für zeitliche Video-Segmentierung übertrifft.

Groß-Fein mehrdimensionales zeitliches Faltungsnetzwerk | Neueste Forschungsarbeiten | HyperAI