Selbstgesteuertes Ensemble-Lernen für Sprach- und Audio-Klassifikation

Die Kombination mehrerer maschineller Lernmodelle zu einem Ensemble ist bekannt dafür, eine überlegene Leistung gegenüber den einzelnen Komponenten des Ensembles zu erzielen. Dies liegt daran, dass die Modelle sich gegenseitig in der Entscheidungsfindung ergänzen können. Anstatt lediglich die Modelle zu kombinieren, schlagen wir einen selbstgesteuerten Ensemble-Lernansatz vor, bei dem die Modelle über mehrere Iterationen hinweg voneinander lernen. Während des selbstgesteuerten Lernprozesses auf Basis von Pseudolabeling verbessern sich nicht nur die einzelnen Modelle, sondern das Ensemble gewinnt auch Wissen über den Zielbereich. Um die Allgemeingültigkeit unseres selbstgesteuerten Ensemble-Lernansatzes (SPEL) zu veranschaulichen, führen wir Experimente an drei audio-basierten Aufgaben durch. Unsere empirischen Ergebnisse zeigen, dass SPEL die Baseline-Ensemble-Modelle signifikant übertrifft. Zudem zeigen wir, dass die Anwendung selbstgesteuerten Lernens auf einzelne Modelle weniger effektiv ist, was die zentrale Idee unterstreicht, dass die Modelle im Ensemble tatsächlich voneinander lernen.