Detektion von Fußgängern durch exemplarisch geleitete kontrastive Lernverfahren

Typische Methoden zur Fußgängererkennung konzentrieren sich entweder auf die Bewältigung gegenseitiger Verdeckungen zwischen dicht beieinander stehenden Fußgängern oder auf die Behandlung der unterschiedlichen Skalen von Fußgängern. Die Erkennung von Fußgängern mit erheblichen Unterschieden im Erscheinungsbild – beispielsweise unterschiedlichen Silhouetten, Blickwinkeln oder Kleidung – bleibt eine zentrale Herausforderung. Anstatt wie die meisten bestehenden Ansätze jeweils einzelne Merkmale des vielfältigen Fußgängererscheinungsbildes unabhängig zu lernen, schlagen wir vor, kontrastives Lernen einzusetzen, um das Merkmalslernen so zu leiten, dass die semantische Distanz zwischen Fußgängern mit unterschiedlichem Erscheinungsbild im gelernten Merkmalsraum minimiert wird, um die Erscheinungsdifferenziertheit zu beseitigen, während gleichzeitig die Distanz zwischen Fußgängern und Hintergrund maximiert wird. Um die Effizienz und Wirksamkeit des kontrastiven Lernens zu fördern, erstellen wir ein Beispielwörterbuch mit repräsentativen Fußgängererscheinungsbildern als Vorwissen, um effektive kontrastive Trainingspaare zu konstruieren und somit das kontrastive Lernen zu leiten. Darüber hinaus wird das erstellte Beispielwörterbuch im Inferenzprozess weiter genutzt, um die Qualität von Fußgänger-Vorschlägen durch Messung der semantischen Distanz zwischen dem Vorschlag und dem Beispielwörterbuch zu bewerten. Umfassende Experimente sowohl bei Tag als auch bei Nacht bestätigen die Wirksamkeit des vorgeschlagenen Ansatzes.