
초록
최근 MLP(Multi-Layer Perceptron) 구조가 다시 인기를 얻고 있으며, MLP-Mixer는 이 중에서도 두드러진 예시로 꼽히고 있습니다. 컴퓨터 비전 분야에서 MLP-Mixer는 채널과 토큰 관점에서 데이터 정보를 추출하는 능력으로 주목받고 있으며, 효과적으로 채널과 토큰 정보의 융합을 수행합니다. 실제로 Mixer는 채널과 토큰 정보를 결합한 정보 추출 패러다임을 나타냅니다. Mixer의 핵심은 다양한 관점에서 정보를 혼합하는 능력에 있으며, 신경망 아키텍처 영역에서 "혼합(mixing)"의 진정한 개념을 대표합니다. 채널과 토큰 고려사항 외에도, 특정 작업 요구사항에 더 잘 맞는 다양한 관점에서의 맞춤형 믹서를 만들 수 있습니다. 본 연구에서는 오디오 인식 분야에 초점을 맞추어 시간 영역과 주파수 영역에서 얻은 통찰력을 모두 포함하는 새로운 모델인 시간-회전 및 에르미트 FFT(FFT: Fast Fourier Transform) 기반 오디오 스펙트로그램 믹서(ASM-RH)를 소개합니다. 실험 결과 ASM-RH는 특히 오디오 데이터에 적합하며, 여러 분류 작업에서 유망한 성능을 보여주었습니다. 모델 및 최적화된 가중치 파일은 공개될 예정입니다.