HyperAIHyperAI
vor 13 Tagen

Gemeinsames induktives und transduktives Lernen für die Video-Objektsegmentierung

Yunyao Mao, Ning Wang, Wengang Zhou, Houqiang Li
Gemeinsames induktives und transduktives Lernen für die Video-Objektsegmentierung
Abstract

Die semi-supervised Video-Object-Segmentation ist eine Aufgabe, bei der das Zielobjekt in einer Videosequenz segmentiert werden muss, wobei lediglich eine Maskenannotation im ersten Frame gegeben ist. Die begrenzte Verfügbarkeit an Informationen macht diese Aufgabe äußerst herausfordernd. Die meisten bisher besten Methoden basieren entweder auf matching-basierten transduktiven Schlussfolgerungen oder auf online-induktivem Lernen. Dennoch sind sie entweder weniger diskriminativ bei ähnlichen Objekten oder nutzen die räumlich-zeitlichen Informationen unzureichend aus. In dieser Arbeit schlagen wir vor, transduktives und induktives Lernen in einem einheitlichen Rahmen zu integrieren, um deren Ergänzungseigenschaften für eine genaue und robuste Video-Object-Segmentation auszunutzen. Der vorgeschlagene Ansatz besteht aus zwei funktionalen Zweigen. Der Transduktionszweig verwendet eine leichtgewichtige Transformer-Architektur, um reichhaltige räumlich-zeitliche Hinweise zu aggregieren, während der Induktionszweig online-induktives Lernen durchführt, um diskriminative Zielinformationen zu erlangen. Um diese beiden unterschiedlichen Zweige zu verbinden, wird ein zweiköpfiger Label-Encoder eingeführt, der die jeweils geeigneten Vorkenntnisse für jeden Zweig lernt. Die generierten Masken-Codierungen werden zudem dazu gezwungen, entkoppelt zu werden, um ihre Ergänzungseigenschaften besser zu bewahren. Umfangreiche Experimente auf mehreren etablierten Benchmarks zeigen, dass der vorgeschlagene Ansatz, ohne synthetische Trainingsdaten zu benötigen, eine Reihe neuer SOTA (State-of-the-Art)-Rekorde erzielt. Der Quellcode ist unter https://github.com/maoyunyao/JOINT verfügbar.

Gemeinsames induktives und transduktives Lernen für die Video-Objektsegmentierung | Neueste Forschungsarbeiten | HyperAI