Argoverse-HD-Streaming-Objekterkennungsdatensatz
Datum
Größe
Veröffentlichungs-URL
Lizenz
其他
Kategorien

Argoverse-HD ist ein Datensatz zur Objekterkennung in Streaming-Medien, einschließlich Echtzeit-Objekterkennung, Video-Objekterkennung, Tracking und kurzfristiger Vorhersage. Der Datensatz enthält Videodaten von Argoverse 1.1 mit insgesamt 70.000 Bildrahmen und 1,3 Millionen Begrenzungsrahmen. Diese Videos haben Anmerkungen und Track-IDs im MS COCO-Stil mit einer Auflösung von 1920 x 1200 bei 30 FPS. Diese Anmerkungen sind abwärtskompatibel mit COCO, sodass Forscher vortrainierte COCO-Modelle direkt anhand dieses Datensatzes auswerten können, um die Effizienz des Modells oder die Fähigkeit zur datensatzübergreifenden Generalisierung abzuschätzen.
Argoverse-HD ist ein Datensatz für die Stream Perception Challenge, der zwei Tracks umfasst:
- Einzelerkennung (Objekterkennung in Echtzeit): In diesem Track entwickeln die Teilnehmer Einzelbild-Objektdetektoren, ähnlich den COCO- und LVIS-Herausforderungen. Der Hauptunterschied besteht darin, dass bei der Bewertung die Latenz wichtiger ist als die Genauigkeit des Streaming-Mediums.
- Full Stack: In diesem Track ist der Ansatz unbegrenzt. Höchstwahrscheinlich werden jedoch Tracking und Vorhersage verwendet, um Sondenverzögerungen auszugleichen.
Standardmäßig werden die Latenzen aller Einsendungen mit dem offiziellen V100-GPU-Toolkit gemessen.