HyperAIHyperAI
vor 2 Monaten

Mixer ist mehr als nur ein Modell.

Ji, Qingfeng ; Wang, Yuxin ; Sun, Letong
Mixer ist mehr als nur ein Modell.
Abstract

Kürzlich haben MLP-Aufbauten an Popularität gewonnen, wobei der MLP-Mixer ein herausragendes Beispiel darstellt. Im Bereich der Computer Vision ist der MLP-Mixer bekannt für seine Fähigkeit, Dateninformationen sowohl aus kanal- als auch aus Token-Perspektive zu extrahieren und somit effektiv eine Fusion von Kanal- und Tokeninformationen darzustellen. Tatsächlich verkörpert der Mixer ein Paradigma für die Informationsextraktion, das Kanal- und Tokeninformationen zusammenführt. Das Wesen des Mixers liegt in seiner Fähigkeit, Informationen aus verschiedenen Perspektiven zu vermischen, was den wahren Begriff des "Mixens" im Bereich der neuronalen Netzwerkarchitekturen exemplarisch darstellt. Neben den Überlegungen zu Kanälen und Tokens ist es möglich, maßgeschneiderte Mixer aus verschiedenen Perspektiven zu erstellen, um spezifische Aufgabenanforderungen besser zu erfüllen. Diese Studie konzentriert sich auf den Bereich der Audiosignalerkennung und stellt ein neues Modell namens Audio-Spektrogramm-Mixer mit Roll-Zeit und Hermit FFT (ASM-RH) vor, das Erkenntnisse sowohl aus dem Zeit- als auch aus dem Frequenzbereich integriert. Experimentelle Ergebnisse zeigen, dass der ASM-RH besonders gut für Audiodaten geeignet ist und vielversprechende Ergebnisse bei mehreren Klassifikationsaufgaben erzielt. Die Modelle und die Dateien mit den optimalen Gewichten werden veröffentlicht.

Mixer ist mehr als nur ein Modell. | Neueste Forschungsarbeiten | HyperAI