SA-V : Meta Crée Le Plus Grand Ensemble De Données De Segmentation Vidéo
Date
Taille
URL de publication
Licence
CC BY 4.0
Catégories

* Cet ensemble de données prend en charge l'utilisation en ligne.Cliquez ici pour sauter.
L'ensemble de données SA-V est un ensemble de données de segmentation vidéo à grande échelle créé par Meta en 2024. Il est utilisé pour former et évaluer Meta Segment Anything Model 2 (SAM 2 en abrégé). Cet ensemble de données est très vaste en termes d'échelle et de diversité, contenant environ 51 000 vidéos du monde réel et 643 000 annotations de masques spatio-temporels, ce qui est environ 50 fois plus grand que d'autres ensembles de données similaires.
L'ensemble de données SA-V a été construit à l'aide d'un processus itératif dans lequel les annotateurs annotent de manière interactive les masques dans les vidéos à l'aide du modèle SAM 2, et ces données nouvellement annotées sont ensuite utilisées pour mettre à jour et former le modèle SAM 2. Cette approche améliore non seulement l’efficacité de la collecte de données, mais contribue également à créer un ensemble de données plus précis et plus diversifié.
De plus, les vidéos de l'ensemble de données SA-V proviennent de 47 pays différents, couvrant diverses zones géographiques et scènes du monde réel, ce qui fournit un contenu visuel riche que le modèle peut apprendre et généraliser. Les annotations dans l’ensemble de données incluent non seulement des objets entiers, mais également des parties d’objets, comme le chapeau d’une personne, ainsi que des cas difficiles où des objets sont occultés, disparaissent et réapparaissent.
La publication de cet ensemble de données, associée à l'open source du modèle SAM 2, fournit aux chercheurs et aux développeurs des outils puissants pour explorer de nouvelles applications et innovations dans des domaines tels que le montage vidéo, la réalité mixte, la robotique, la conduite autonome et la compréhension du contenu vidéo.
Structure du jeu de données
– Segmentation de la formation : La vidéo est encodée en MP4, chaque fichier fait environ 8G, sav_000.tar – sav_055.tar. Les masques sont au format d'encodage de longueur d'exécution COCO (RLE) (une liste de listes), où la liste externe est superposée sur les images vidéo.
– Val/Test split : Les images vidéo sont au format JPEG, chaque fichier fait environ 16 Go, sav_val.tar et sav_test.tar. Les masques sont au format PNG.