HyperAIHyperAI
vor 9 Tagen

Schwach beschriftete, physikalisch unbeschränkte Blickschätzung

Rakshit Kothari, Shalini De Mello, Umar Iqbal, Wonmin Byeon, Seonwook Park, Jan Kautz
Schwach beschriftete, physikalisch unbeschränkte Blickschätzung
Abstract

Ein zentrales Problem bei der physikalisch unbeschränkten Blickrichtungsschätzung ist die Beschaffung von Trainingsdaten mit 3D-Blickrichtungsannotierungen für realitätsnahe und Outdoor-Szenarien. Im Gegensatz dazu sind Videos von menschlichen Interaktionen in unbeschränkten Umgebungen reichlich vorhanden und können weitaus einfacher mit framebasierten Aktivitätslabels annotiert werden. In dieser Arbeit behandeln wir das bisher unerforschte Problem der schwach beschrifteten Blickrichtungsschätzung aus Videos menschlicher Interaktionen. Wir nutzen die Erkenntnis, dass bei der Aktivität „Sich gegenseitig ansehen“ (Looking At Each Other, LAEO) starke geometrische Einschränkungen im Zusammenhang mit dem Blick bestehen. Um brauchbare 3D-Blickrichtungs-Supervision aus LAEO-Labels zu gewinnen, schlagen wir einen neuen Trainingsalgorithmus sowie mehrere neuartige Verlustfunktionen vor, die speziell für diese Aufgabe entwickelt wurden. Unter Verwendung von schwacher Supervision aus zwei großen Datensätzen, CMU-Panoptic und AVA-LAEO, zeigen wir erhebliche Verbesserungen hinsichtlich (a) der Genauigkeit der semi-supervisierten Blickrichtungsschätzung und (b) der Cross-Domain-Verallgemeinerung auf dem aktuellen Stand der Technik im Bereich der physikalisch unbeschränkten, realitätsnahen Gaze360-Blickrichtungsschätzung. Wir stellen unseren Quellcode öffentlich unter https://github.com/NVlabs/weakly-supervised-gaze zur Verfügung.