Apprentissage de représentation de graphe relationnel audio événementiel basé sur les arêtes multidimensionnelles pour la classification des scènes acoustiques

La plupart des approches existantes de classification des scènes acoustiques (ASC) basées sur l’apprentissage profond utilisent directement les représentations extraites à partir de spectrogrammes pour identifier les scènes cibles. Toutefois, ces méthodes accordent peu d’attention aux événements acoustiques réels se produisant dans la scène, bien qu’ils fournissent des informations sémantiques cruciales. Ce papier présente la première étude visant à explorer si les scènes acoustiques du monde réel peuvent être reconnues de manière fiable à partir uniquement des caractéristiques décrivant un nombre limité d’événements acoustiques. Pour modéliser les relations spécifiques à la tâche entre les scènes acoustiques grossières et les événements acoustiques fins, nous proposons un cadre d’apprentissage de représentation graphique relationnelle d’événements (ERGL) pour la classification des scènes acoustiques. Plus précisément, ERGL apprend une représentation graphique d’une scène acoustique à partir de l’audio d’entrée, où chaque événement est représenté par un nœud, et les indices de relations entre chaque paire d’événements sont décrits par une caractéristique d’arête multidimensionnelle apprise. Des expériences menées sur un jeu de données de scènes acoustiques polyphoniques montrent que le cadre ERGL proposé atteint des performances compétitives en ASC en n’utilisant qu’un nombre limité d’embeddings d’événements acoustiques, sans aucune augmentation de données. La validité du cadre ERGL proposé démontre la faisabilité de la reconnaissance de scènes acoustiques diverses à partir d’un graphe relationnel d’événements. Notre code est disponible sur notre page web (https://github.com/Yuanbo2020/ERGL).