WALT: Watch and Learn 2D Amodal Representation From Time-Lapse Imagery

Aktuelle Methoden zur Objekterkennung, -segmentierung und -verfolgung versagen bei starker Verdeckung in dicht besiedelten urbanen Umgebungen. Gelabelte reale Datensätze, die Verdeckungen enthalten, sind selten (sogar in großen Datensätzen), während synthetische Daten eine Domänenlücke aufweisen, was die explizite Modellierung und das Lernen von Verdeckungen erschwert. In dieser Arbeit präsentieren wir eine Kombination aus der realen und der synthetischen Welt für die automatische Überwachung von Verdeckungen, indem wir eine große, leicht verfügbare Datenquelle nutzen: Zeitraffer-Aufnahmen von stationären Webcams, die über Wochen, Monate oder sogar Jahre Straßenkreuzungen beobachten. Wir führen ein neues Datenset ein, das Watch and Learn Time-lapse (WALT) heißt, bestehend aus 12 Kameras (4K und 1080p), die über ein Jahr lang städtische Umgebungen aufzeichnen. Wir nutzen diese reale Datenquelle auf eine neuartige Weise, um automatisch eine große Menge an unverdeckten Objekten zu extrahieren und diese anschließend in denselben Blickwinkeln zu komponieren, um Verdeckungen zu generieren. Diese longitudinale Selbstüberwachung ist ausreichend stark, um ein amodales Netzwerk zu befähigen, Darstellungen der Schicht „Objekt–Verdeckung–verdecktes Objekt“ zu lernen. Wir zeigen, wie die Entdeckung unverdeckter Objekte beschleunigt werden kann und wie das Vertrauen in diese Entdeckung mit der Geschwindigkeit und Genauigkeit des Trainings verdeckter Objekte korreliert. Nach mehreren Tagen des Beobachtens und automatischen Lernens zeigt dieser Ansatz eine signifikante Leistungssteigerung bei der Erkennung und Segmentierung verdeckter Personen und Fahrzeuge im Vergleich zu menschlich überwachten amodalen Ansätzen.