HyperAIHyperAI
vor 2 Monaten

Speicheraggregationsnetze für effiziente interaktive Videoobjekterkennung

Miao, Jiaxu ; Wei, Yunchao ; Yang, Yi
Speicheraggregationsnetze für effiziente interaktive Videoobjekterkennung
Abstract

Interaktive Videoobjektssegmentierung (iVOS) zielt darauf ab, durch Benutzerinteraktion effizient hochwertige Segmentierungs-Masken des Zielobjekts in einem Video zu erzeugen. Die meisten bisherigen StandesderTechnik-Ansätze bewältigen die iVOS mit zwei unabhängigen Netzen, die jeweils für die Durchführung von Benutzerinteraktionen und temporale Propagation zuständig sind, was während der Inferenzphase zu Effizienzproblemen führt. In dieser Arbeit schlagen wir ein einheitliches Framework vor, das als Memory Aggregation Networks (MA-Net) bezeichnet wird, um die anspruchsvolle iVOS auf eine effizientere Weise zu lösen. Unser MA-Net integriert die Interaktions- und Propagationsschritte in ein einzelnes Netzwerk, was die Effizienz der iVOS bei mehrfachen Interaktionsrunden erheblich steigert. Noch wichtiger ist, dass wir einen einfachen aber effektiven Mechanismus zur Aggregation von Wissensspeicher vorschlagen, um wertvolles Wissen aus früheren Interaktionsrunden aufzuzeichnen und so die Robustheit bei der Identifizierung anspruchsvoller Objekte von Interesse stark zu verbessern. Wir führen umfangreiche Experimente am Validierungsdatensatz des DAVIS Challenge 2018 Benchmarks durch. Insbesondere erreicht unser MA-Net ohne jegliche zusätzliche Verfeinerungen einen J@60-Wert von 76,1 %, was den aktuellen Stand der Technik um mehr als 2,7 % übertrifft.

Speicheraggregationsnetze für effiziente interaktive Videoobjekterkennung | Neueste Forschungsarbeiten | HyperAI