Tiefgreifende mehrfachaufgabenbasierte Netzwerke für die Pose-Schätzung von verdeckten Fußgängern

Die meisten bestehenden Arbeiten zur Fußgänger-Pose-Schätzung berücksichtigen die Schätzung der Pose eines verdeckten Fußgängers nicht, da in den entsprechenden automotive-Datensätzen keine Annotationen für verdeckte Körperabschnitte verfügbar sind. Beispielsweise bietet CityPersons, ein bekannter Datensatz für die Fußgängererkennung in automotive-Szenen, keine Pose-Annotationen, während MS-COCO, ein nicht-automobilbezogener Datensatz, menschliche Pose-Schätzung enthält. In dieser Arbeit stellen wir einen mehraufgabenbasierten Rahmen vor, um Fußgänger-Features durch die getrennte Durchführung von Erkennungs- und Instanzsegmentierungsaufgaben auf diesen beiden Datensatzverteilungen zu extrahieren. Anschließend lernt ein Encoder mithilfe einer unsupervisierten, instanzbasierten Domänenanpassungsmethode spezifische Pose-Features für Fußgängerinstanzen aus beiden Verteilungen. Der vorgeschlagene Rahmen verbessert die aktuell besten Ergebnisse bei der Pose-Schätzung, der Fußgänger-Erkennung und der Instanzsegmentierung.