2 个月前

混合器不仅仅是一个模型

Ji, Qingfeng ; Wang, Yuxin ; Sun, Letong
混合器不仅仅是一个模型
摘要

最近,多层感知机(MLP)结构再次受到关注,其中MLP-Mixer尤为突出。在计算机视觉领域,MLP-Mixer以其从通道和标记两个角度提取数据信息的能力而著称,有效地实现了通道和标记信息的融合。实际上,Mixer代表了一种信息提取范式,将通道和标记信息综合在一起。Mixer的核心在于其能够从不同角度混合信息,体现了神经网络架构中“混合”的真正概念。除了通道和标记方面的考虑外,还可以从各种角度创建更加定制化的混合器,以更好地满足特定任务的需求。本研究聚焦于音频识别领域,引入了一种名为带滚动时间和厄米FFT的音频频谱图混合器(Audio Spectrogram Mixer with Roll-Time and Hermit FFT, ASM-RH)的新模型,该模型结合了时域和频域的见解。实验结果表明,ASM-RH特别适用于音频数据,并在多个分类任务中取得了令人鼓舞的结果。相关模型及最优权重文件将予以发布。

混合器不仅仅是一个模型 | 最新论文 | HyperAI超神经