Echtzeit-Segmentierung von komplexen Videoszenen mit Menschenschwerpunkt

Die meisten bestehenden Videoaufgaben im Zusammenhang mit „Menschen“ konzentrieren sich auf die Segmentierung von prominenten Menschen und ignorieren die nicht spezifizierten anderen Personen im Video. Wenige Studien haben sich darauf konzentriert, alle Menschen in komplexen Videos zu segmentieren und zu verfolgen, einschließlich Fußgänger und Menschen in anderen Zuständen (z. B. sitzend, reitend oder verdeckt). In dieser Arbeit schlagen wir ein neues Framework vor, abgekürzt als HVISNet, das alle dargestellten Personen in gegebenen Videos basierend auf einem Einziger-Stufen-Detektor (one-stage detector) segmentiert und verfolgt. Um komplexe Szenen besser zu bewerten, stellen wir eine neue Benchmark genannt HVIS (Human Video Instance Segmentation) zur Verfügung, die 1447 menschliche Instanzmasken in 805 hochauflösenden Videos aus verschiedenen Szenarien umfasst. Ausführliche Experimente zeigen, dass unser vorgeschlagenes HVISNet hinsichtlich der Genauigkeit bei einer Echtzeit-Inferenzgeschwindigkeit (30 FPS) den aktuellen Stand der Technik übertrifft, insbesondere in komplexen Videoszenen. Wir bemerken auch, dass die Verwendung des Mittelpunkts des Begrenzungsrahmens zur Unterscheidung verschiedener Individuen die Segmentierungsgenauigkeit erheblich verschlechtert, besonders unter stark verdeckten Bedingungen. Dieses häufige Phänomen wird als das Problem der unklaren positiven Beispiele bezeichnet. Um dieses Problem zu mildern, schlagen wir einen Mechanismus namens Inner Center Sampling vor, um die Genauigkeit der Instanzsegmentierung zu verbessern. Solch ein flexibler Inner Center Sampling-Mechanismus kann in jedes Instanzsegmentierungsmodell integriert werden, das auf einem Einziger-Stufen-Detektor basiert, um dessen Leistungsfähigkeit zu steigern. Insbesondere erreicht er eine Verbesserung von 4,1 mAP im Vergleich zum aktuellen Stand der Technik bei verdeckten Menschen. Der Quellcode und die Daten sind unter https://github.com/IIGROUP/HVISNet verfügbar.