HyperAIHyperAI
vor 11 Tagen

STARSS22: Ein Datensatz räumlicher Aufnahmen realer Szenen mit räumlich-zeitlichen Annotationen von Schallereignissen

Archontis Politis, Kazuki Shimada, Parthasaarathy Sudarsanam, Sharath Adavanne, Daniel Krause, Yuichiro Koyama, Naoya Takahashi, Shusuke Takahashi, Yuki Mitsufuji, Tuomas Virtanen
STARSS22: Ein Datensatz räumlicher Aufnahmen realer Szenen mit räumlich-zeitlichen Annotationen von Schallereignissen
Abstract

Dieser Bericht stellt die Sony-TAu Realistic Spatial Soundscapes 2022 (STARS22)-Datensammlung für die Lokalisierung und Erkennung von Schallereignissen vor, die aus räumlichen Aufnahmen realer Szenen besteht, die in verschiedenen Innenräumen zweier unterschiedlicher Standorte erfasst wurden. Die Datensammlung wurde mit einer hochauflösenden sphärischen Mikrofonanordnung aufgenommen und in zwei 4-Kanal-Formaten bereitgestellt: erster Ordnung Ambisonics und tetraedrische Mikrofonanordnung. Schallereignisse innerhalb der Datensammlung, die zu 13 Ziel-Schallklassen gehören, wurden sowohl zeitlich als auch räumlich mittels einer Kombination aus menschlicher Annotation und optischer Verfolgung annotiert. Die Datensammlung dient als Entwicklungs- und Evaluationsdatensatz für die Aufgabe 3 der DCASE2022-Challenge zur Lokalisierung und Erkennung von Schallereignissen und stellt gegenüber den vorherigen Iterationen erheblich neue Herausforderungen dar, da diese auf synthetisch räumlich gestalteten Schallszenen basierten. Im Bericht werden detaillierte Spezifikationen der Datensammlung vorgestellt, einschließlich Aufnahmeprozess und Annotation, Zielklassen und deren Vorkommen sowie Angaben zu den Entwicklungs- und Evaluierungsteilen. Zudem wird das Basissystem vorgestellt, das die Datensammlung im Rahmen der Challenge begleitet, wobei besonderer Fokus auf die Unterschiede gegenüber den Basissystemen der vorherigen Iterationen liegt: insbesondere die Einführung der multi-ACCDOA-Darstellung zur Behandlung mehrerer gleichzeitiger Auftreten von Ereignissen derselben Klasse sowie die Unterstützung erweiterter, verbesserter Eingabefeatures für die Mikrofonanordnungsformate. Die Ergebnisse des Basissystems zeigen, dass mit einer geeigneten Trainingsstrategie eine akzeptable Erkennungs- und Lokalisierungsgenauigkeit bei realen Schallszenenaufnahmen erzielt werden kann. Die Datensammlung ist unter https://zenodo.org/record/6387880 verfügbar.

STARSS22: Ein Datensatz räumlicher Aufnahmen realer Szenen mit räumlich-zeitlichen Annotationen von Schallereignissen | Neueste Forschungsarbeiten | HyperAI