Fussgängererkennung unterstützt durch Deep-Learning-Semantikaufgaben

Tiefe Lernmethoden haben bei der Erkennung von Fußgängern großen Erfolg erzielt, dank ihrer Fähigkeit, Merkmale aus rohen Pixeln zu lernen. Allerdings fangen sie hauptsächlich mittlere Darstellungen ein, wie z.B. die Haltung des Fußgängers, und verwechseln positive mit schweren negativen Proben, die eine hohe Ambiguität aufweisen. Zum Beispiel ähneln die Form und das Aussehen eines „Baumstamms“ oder eines „Leitungsmasts“ in bestimmten Blickwinkeln denen eines Fußgängers. Diese Ambiguität kann durch hochstufige Darstellungen unterschieden werden. Zu diesem Zweck optimiert diese Arbeit die Erkennung von Fußgängern gemeinsam mit semantischen Aufgaben, einschließlich Fußgängerattribute (z.B. „Rucksack tragen“) und Szenenattribute (z.B. „Straße“, „Baum“ und „horizontal“). Anstatt Szenenattribute kostspielig zu annotieren, übertragen wir Attributinformationen von vorhandenen Szenensegmentierung-Datensätzen auf den Datensatz der Fußgänger, indem wir ein neues tiefes Modell vorschlagen, das hochstufige Merkmale aus mehreren Aufgaben und Datenquellen lernt. Da verschiedene Aufgaben unterschiedliche Konvergenzraten haben und Daten aus verschiedenen Datensätzen unterschiedliche Verteilungen aufweisen, wird eine Mehraufgaben-Zielfunktion sorgfältig entworfen, um die Aufgaben zu koordinieren und Diskrepanzen zwischen den Datensätzen zu reduzieren. Die Gewichtungskoeffizienten der Aufgaben und die Netzwerkparameter in dieser Zielfunktion können iterativ geschätzt werden. Umfangreiche Evaluierungen zeigen, dass der vorgeschlagene Ansatz den Stand der Technik auf den anspruchsvollen Caltech- und ETH-Datensätzen übertrifft, wobei er die Fehlerraten früherer tiefer Modelle um 17 % bzw. 5,5 % reduziert.