Training von Sound Event Detection auf einem heterogenen Datensatz

Die Schulung eines Algorithmen zur Schallevent-Detektion auf einem heterogenen Datensatz, der sowohl aufgezeichnete als auch synthetische Klanglandschaften mit unterschiedlicher Granularität der Beschriftung enthält, ist eine anspruchsvolle Aufgabe, die Systeme mit mehreren technischen Entscheidungen verknüpft. Diese technischen Entscheidungen werden oft ohne Kritik von einem System auf das nächste übertragen. Wir schlagen vor, eine detaillierte Analyse der Baseline für die DCASE 2020-Aufgabe 4 zur Schallevent-Detektion hinsichtlich verschiedener Aspekte durchzuführen, wie beispielsweise der Art der für das Training verwendeten Daten, der Parameter des Mean-Teacher-Modells oder der Transformationen, die bei der Generierung der synthetischen Klanglandschaften angewendet werden. Dabei zeigt sich, dass einige Parameter, die üblicherweise als Standardwerte verwendet werden, suboptimal sind.