HyperAI

SA-V: Meta Erstellt Den Größten Datensatz Zur Videosegmentierung

Datum

vor 10 Monaten

Größe

441.6 GB

Organisation

Meta

Veröffentlichungs-URL

github.com

Lizenz

CC BY 4.0

特色图像

* Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.

Der SA-V-Datensatz ist ein umfangreicher Datensatz zur Videosegmentierung, der 2024 von Meta erstellt wurde. Er wird zum Trainieren und Bewerten von Meta Segment Anything Model 2 (kurz SAM 2) verwendet. Dieser Datensatz ist sehr umfangreich und vielfältig und enthält etwa 51.000 Videos aus der realen Welt und 643.000 raumzeitliche Masklet-Anmerkungen. Damit ist er etwa 50-mal größer als andere ähnliche Datensätze.

Der SA-V-Datensatz wurde mithilfe eines iterativen Prozesses erstellt, bei dem Annotatoren mithilfe des SAM 2-Modells interaktiv Masklets in Videos annotieren und diese neu annotierten Daten dann zum Aktualisieren und Trainieren des SAM 2-Modells verwendet werden. Dieser Ansatz verbessert nicht nur die Effizienz der Datenerfassung, sondern trägt auch zum Aufbau eines genaueren und vielfältigeren Datensatzes bei.

Darüber hinaus stammen die Videos im SA-V-Datensatz aus 47 verschiedenen Ländern und decken unterschiedliche geografische Gebiete und reale Szenen ab, was dem Modell reichhaltige visuelle Inhalte zum Lernen und Verallgemeinern bietet. Die Anmerkungen im Datensatz umfassen nicht nur ganze Objekte, sondern auch Teile von Objekten, wie etwa den Hut einer Person, sowie schwierige Fälle, in denen Objekte verdeckt werden, verschwinden und wieder auftauchen.

Die Veröffentlichung dieses Datensatzes, gepaart mit der Open-Source-Bereitstellung des SAM 2-Modells, bietet Forschern und Entwicklern leistungsstarke Tools zur Erforschung neuer Anwendungen und Innovationen in Bereichen wie Videobearbeitung, Mixed Reality, Robotik, autonomes Fahren und Verständnis von Videoinhalten.

Datensatzstruktur

– Trainingssegmentierung: Das Video ist in MP4 codiert, jede Datei ist etwa 8 GB groß, sav_000.tar – sav_055.tar. Masklets liegen im COCO-Run-Length-Encoding-Format (RLE) (eine Liste von Listen) vor, wobei die äußere Liste über die Videoframes gelegt wird.

– Val/Test-Aufteilung: Videoframes sind im JPEG-Format, jede Datei ist etwa 16 GB groß, sav_val.tar und sav_test.tar. Masklets liegen im PNG-Format vor.

SA-VDataset.torrent
Seeding 0Herunterladen 3Abgeschlossen 403Gesamtdownloads 811
  • SA-VDataset/
    • README.md
      2.38 KB
    • README.txt
      4.75 KB
      • data/
        • SA-V.zip
          441.6 GB