MetaAudio: Ein Benchmark für Few-Shot-Audioklassifizierung

Die derzeit verfügbaren Benchmarks für Few-Shot-Lernen (Maschinelles Lernen mit wenigen Trainingsbeispielen) sind in den von ihnen abgedeckten Domänen begrenzt und konzentrieren sich hauptsächlich auf die Bildklassifizierung. Diese Arbeit strebt an, diese Abhängigkeit von bildbasierten Benchmarks zu verringern, indem sie erstmals eine umfassende, öffentliche und vollständig reproduzierbare Alternative auf Audio-Basis bietet, die eine Vielzahl von Klangdomänen und experimentellen Einstellungen abdeckt. Wir vergleichen die Few-Shot-Klassifikationsleistung verschiedener Techniken auf sieben Audiodatensätzen (von Umgebungsgeräuschen bis hin zu menschlicher Sprache). Darüber hinaus führen wir detaillierte Analysen von gemeinsamem Training (wo alle Datensätze während des Trainings verwendet werden) und Cross-Datensatz-Adaptierungsprotokollen durch, wodurch die Möglichkeit eines generalisierten Few-Shot-Klassifikationsalgorithmus für Audio etabliert wird. Unsere Experimente zeigen, dass gradientenbasierte Meta-Lernmethoden wie MAML (Model-Agnostic Meta-Learning) und Meta-Curvature konsistent beide metrische und Baselinemethoden übertrumpfen. Wir demonstrieren auch, dass das gemeinsame Trainingsverfahren die allgemeine Generalisierung für die in der Studie enthaltenen Umgebungsgeräuschdatenbanken verbessert sowie eine relativ effektive Methode zur Bewältigung der Cross-Datensatz/Domäne-Einstellung darstellt.