RVOS: End-to-End Rekurrentes Netzwerk für die Segmentierung von Videoobjekten

Die Segmentierung mehrerer Objekte in Videos ist eine anspruchsvolle Aufgabe, insbesondere im Fall von Zero-Shot-Segmentierung, bei der am Anfang keinerlei Objektmasken gegeben sind und das Modell die zu segmentierenden Objekte während der Sequenz finden muss. In unserer Arbeit schlagen wir ein rekurrentes Netzwerk für die Segmentierung mehrerer Objekte in Videos (RVOS) vor, das vollständig end-to-end trainiert werden kann. Unser Modell integriert Rekurrenz in zwei verschiedenen Bereichen: (i) den räumlichen, der es ermöglicht, die verschiedenen Objektinstanzen innerhalb eines Bildes zu erkennen, und (ii) den zeitlichen, der die Kohärenz der segmentierten Objekte über die Zeit hinweg gewährleistet. Wir trainieren RVOS für Zero-Shot-Videoobjektsegmentierung und sind die Ersten, die quantitative Ergebnisse für die Benchmarks DAVIS-2017 und YouTube-VOS berichten. Darüber hinaus passen wir RVOS für One-Shot-Videoobjektsegmentierung an, indem wir die Masken aus vorherigen Zeitschritten als Eingaben verwenden, die vom rekurrenten Modul verarbeitet werden. Unser Modell erreicht vergleichbare Ergebnisse mit den besten bisherigen Techniken im YouTube-VOS-Benchmark und übertreffen alle früheren Videoobjektsegmentierungsverfahren ohne Online-Lernen im DAVIS-2017-Benchmark. Zudem erreicht unser Modell kürzere Inferenzlaufzeiten als frühere Methoden, wobei es 44 ms/Bild auf einer P100-GPU benötigt.请注意,虽然您的要求中提到了“法语”,但您需要的是德语翻译。上述翻译已按照德语的标准进行了处理。