Monokular, Einstufig, Regression von mehreren 3D-Personen

Dieses Papier konzentriert sich auf die Regression mehrerer 3D-Personen aus einem einzelnen RGB-Bild. Bestehende Ansätze folgen in der Regel einem mehrstufigen Pipeline, bei dem zunächst Personen in Begrenzungsrahmen erkannt und dann ihre 3D-Körpernetze unabhängig voneinander regressiert werden. Im Gegensatz dazu schlagen wir eine einstufige Methode vor, um alle Netze für mehrere 3D-Personen zu regressieren (kurz ROMP). Dieser Ansatz ist konzeptuell einfach, verzichtet auf Begrenzungsrahmen und kann eine Pixel-basierte Darstellung von Anfang bis Ende lernen. Unsere Methode prognostiziert gleichzeitig eine Körpermitte-Heatmap und eine Netzparameter-Map, die zusammen die 3D-Körpernetze auf Pixel-Ebene beschreiben können. Durch einen körpermittegeführten Abtastprozess können die Netzparameter aller Personen im Bild leicht aus der Netzparameter-Map extrahiert werden. Mit dieser feingranularen Darstellung entfällt unser einstufiges Framework der komplexen mehrstufigen Prozesse und ist robuster gegenüber Verdeckungen. Vergleicht man es mit den besten aktuellen Methoden, erreicht ROMP überlegene Leistungen bei den anspruchsvollen Mehrpersonenchallenges, einschließlich 3DPW und CMU Panoptic. Experimente an dicht besetzten/verdeckten Datensätzen zeigen die Robustheit unter verschiedenen Arten von Verdeckungen. Der veröffentlichte Code ist die erste Echtzeitimplementierung der monokularen Mehrpersonen-3D-Netzregression.