D2Conv3D: Dynamische dilatierte Faltungen für die Objektsegmentierung in Videos

Trotz erheblicher Aufmerksamkeit durch die Forschungsgemeinschaft besteht weiterhin erheblicher Verbesserungsbedarf beim Segmentieren und Verfolgen von Objekten in monokularen Videos. Bestehende Arbeiten haben gleichzeitig die Wirksamkeit von dilatierten und deformierbaren Faltungen für verschiedene bildbasierte Segmentierungsaufgaben nachgewiesen. Dies begründet die Annahme, dass auch 3D-Erweiterungen solcher Faltungen zu Leistungssteigerungen bei videobasierten Segmentierungsaufgaben führen sollten. Diese Aspekte wurden in der bestehenden Literatur jedoch bisher noch nicht ausreichend erforscht. In diesem Paper stellen wir Dynamic Dilated Convolutions (D2Conv3D) vor: eine neuartige Faltung, die sich von dilatierten und deformierbaren Faltungen inspirieren lässt und diese auf den 3D-(raumzeitlichen) Bereich erweitert. Experimentell zeigen wir, dass D2Conv3D die Leistung mehrerer 3D-CNN-Architekturen auf mehreren Benchmarks im Bereich der Video-Segmentierung verbessern kann, indem D2Conv3D einfach als Drop-in-Ersatz für herkömmliche Faltungen eingesetzt wird. Darüber hinaus zeigen wir, dass D2Conv3D über triviale Erweiterungen bestehender dilatierter und deformierbarer Faltungen auf 3D hinausgeht. Schließlich erreichen wir eine neue State-of-the-Art-Leistung auf dem DAVIS 2016 Unsupervised Video Object Segmentation Benchmark. Der Quellcode ist öffentlich verfügbar unter https://github.com/Schmiddo/d2conv3d.