HyperAIHyperAI
il y a 2 mois

Le mélangeur est bien plus qu'un simple modèle.

Ji, Qingfeng ; Wang, Yuxin ; Sun, Letong
Le mélangeur est bien plus qu'un simple modèle.
Résumé

Récemment, les structures de MLP ont regagné en popularité, avec le MLP-Mixer se distinguant comme un exemple remarquable. Dans le domaine de la vision par ordinateur, le MLP-Mixer est noté pour sa capacité à extraire des informations des données à la fois sous l'angle des canaux et des jetons, agissant efficacement comme une fusion d'informations de canal et de jeton. En effet, le Mixer représente un paradigme d'extraction d'informations qui combine les informations de canal et de jeton. L'essence du Mixer réside dans sa capacité à mélanger les informations provenant de perspectives diverses, incarnant véritablement le concept de « mixing » dans le domaine des architectures de réseaux neuronaux. Au-delà des considérations relatives aux canaux et aux jetons, il est possible de créer des mixers plus sur mesure à partir de diverses perspectives pour mieux s'adapter aux exigences spécifiques des tâches. Cette étude se concentre sur le domaine de la reconnaissance audio, introduisant un nouveau modèle nommé Audio Spectrogram Mixer with Roll-Time and Hermit FFT (ASM-RH) qui intègre des insights tant du domaine temporel que du domaine fréquentiel. Les résultats expérimentaux montrent que l'ASM-RH est particulièrement bien adapté aux données audio et produit des résultats prometteurs dans plusieurs tâches de classification. Les modèles et les fichiers de poids optimaux seront publiés.

Le mélangeur est bien plus qu'un simple modèle. | Articles de recherche récents | HyperAI