HyperAIHyperAI
il y a 11 jours

BYOL-S : Apprentissage de représentations vocales auto-supervisées par bootstrap

Gasser Elbanna, Neil Scheidwasser-Clow, Mikolaj Kegler, Pierre Beckmann, Karl El Hajal, Milos Cernak
BYOL-S : Apprentissage de représentations vocales auto-supervisées par bootstrap
Résumé

Les méthodes d'extraction de caractéristiques audio et vocales ont fait l'objet de recherches depuis les travaux pionniers en analyse spectrale il y a plusieurs décennies. Les récents efforts s'inspirent de l'ambition de développer des représentations audio généralistes. Par exemple, les réseaux neuronaux profonds peuvent extraire des embeddings optimaux s'ils sont entraînés sur de grandes bases de données audio. Ce travail étend les méthodes existantes fondées sur l'apprentissage auto-supervisé par une approche de bootstrap, propose diverses architectures d'encodeurs et explore les effets de l'utilisation de différentes bases de données pour le pré-entraînement. Enfin, nous présentons un nouveau cadre d'entraînement permettant d’obtenir une représentation audio hybride, combinant des caractéristiques audio conçues manuellement et des caractéristiques apprises à partir de données. Toutes les représentations proposées ont été évaluées dans le cadre du défi HEAR NeurIPS 2021 portant sur la classification des scènes auditives et la détection de timestamps. Nos résultats indiquent que le modèle hybride utilisant un transformateur convolutif comme encodeur obtient des performances supérieures dans la majorité des tâches du défi HEAR.

BYOL-S : Apprentissage de représentations vocales auto-supervisées par bootstrap | Articles de recherche récents | HyperAI