HyperAI

Ref-AVS-Datensatz Zur Audiovisuellen Szenensegmentierung

Datum

vor 9 Monaten

Größe

16.28 GB

Organisation

Shanghaier Labor für künstliche Intelligenz

Veröffentlichungs-URL

gewu-lab.github.io

Der Ref-AVS-Datensatz wurde 2024 von Forschern der Renmin University of China, der Beijing University of Posts and Telecommunications und dem Shanghai Artificial Intelligence Laboratory veröffentlicht.Ref-AVS: Referenzieren und Segmentieren von Objekten in audiovisuellen Szenen", wurde von ECCV2024 angenommen.

Der Ref-AVS-Datensatz ist ein Benchmark für Objektsegmentierungsaufgaben in audiovisuellen Szenen, der Anmerkungen auf Pixelebene bereitstellt und die Entwicklung multimodaler Modelle für maschinelles Lernen fördern soll, insbesondere bei komplexen Aufgaben, bei denen Audio- und visuelle Informationen miteinander verschmelzen.

Das Forschungsteam wählte mehrere hörbare Objekte in 48 Kategorien aus: 20 Musikinstrumente, 8 Tiere, 15 Maschinen und 5 Menschen. Anmerkungen wurden mithilfe des maßgeschneiderten GSAI-Tagging-Systems des Teams gesammelt.

Während des Videoerfassungsprozesses verwendete das Forschungsteam in der Literatur vorgestellte Techniken [3,47], um sicherzustellen, dass die Audio- und Videoclips der beabsichtigten Semantik entsprachen. Alle Videos stammen von YouTube unter einer Creative Commons-Lizenz und jedes Video wurde auf eine Länge von 10 Sekunden gekürzt. Während des gesamten manuellen Erfassungsprozesses haben wir es absichtlich vermieden, Videos in mehrere Kategorien zu klassifizieren: 1) Videos mit einer großen Anzahl identischer semantischer Mengen; 2) Videos mit zahlreichen Bearbeitungs- und Kamerawechselfunktionen; 3) nicht realistische Videos mit synthetischen Artefakten.

Ref-AVS.torrent
Seeding 1Herunterladen 1Abgeschlossen 57Gesamtdownloads 67
  • Ref-AVS/
    • README.md
      1.96 KB
    • README.txt
      3.91 KB
      • data/
        • refavs.zip
          16.28 GB