Ensemble De Données De Segmentation De Scènes Audiovisuelles Ref-AVS
Date
Taille
URL de publication
L'ensemble de données Ref-AVS a été publié en 2024 par des chercheurs de l'Université Renmin de Chine, de l'Université des postes et télécommunications de Pékin et du Laboratoire d'intelligence artificielle de Shanghai.Ref-AVS : référencer et segmenter des objets dans des scènes audiovisuelles", a été accepté par ECCV2024.
L'ensemble de données Ref-AVS est une référence pour les tâches de segmentation d'objets dans les scènes audiovisuelles qui fournit des annotations au niveau des pixels et vise à promouvoir le développement de modèles d'apprentissage automatique multimodaux, en particulier dans les tâches complexes impliquant la fusion d'informations audio et visuelles.
L’équipe de recherche a sélectionné plusieurs objets audibles dans 48 catégories : 20 instruments de musique, 8 animaux, 15 machines et 5 humains. Les annotations ont été collectées à l’aide du système de marquage GSAI personnalisé de l’équipe.
Au cours du processus d’acquisition vidéo, l’équipe de recherche a utilisé des techniques introduites dans la littérature [3,47] pour garantir que les clips audio et vidéo étaient alignés sur la sémantique prévue. Toutes les vidéos proviennent de YouTube sous une licence Creative Commons, et chaque vidéo a été réduite à 10 secondes. Tout au long du processus de collecte manuelle, nous avons volontairement évité de classer les vidéos en plusieurs catégories : 1) les vidéos avec un grand nombre de quantités sémantiques identiques ; 2) vidéos avec un grand nombre de propriétés d’édition et de changement de caméra ; 3) des vidéos non réalistes contenant des artefacts synthétiques.