
대규모 오디오 데이터셋인 AudioSet와 같은 데이터셋의 도입은 트랜스포머가 오디오 분야에서 주도권을 장악하고 많은 작업에서 최신 신경망 구조로 CNNs를 대체하는 길을 열었습니다. 오디오 스펙트로그램 트랜스포머는 대규모 데이터셋을 활용하여 강력한 사전 훈련 모델을 생성하며, 다운스트림 작업에微调时超越了CNNs。然而,与CNNs相比,当前流行的奥迪奥频谱图变换器在计算复杂度方面要求较高。最近,我们证明了通过采用变换器到CNN的知识蒸馏技术,高效的CNN可以赶上并在大型数据集上超越变换器。在这项工作中,我们扩展了这一研究方向,并通过引入动态CNN块(由动态非线性、动态卷积和注意力机制构建)来增加高效CNN的能力。我们展示了这些动态CNN在大规模AudioSet上的音频标记任务中,在性能-复杂度权衡和参数效率方面优于传统的高效CNN。我们的实验进一步表明,所引入的动态CNN在下游任务中表现出更好的性能,并且能够很好地扩展,达到变换器的性能甚至在AudioSet和几个下游任务上超越它们。为了更准确地反映原文并符合韩语的表达习惯,以下是修正后的翻译:대규모 오디오 데이터셋인 AudioSet와 같은 데이터셋의 도입은 트랜스포머가 오디오 분야에서 주도권을 장악하고 많은 작업에서 최신 신경망 구조로 CNNs를 대체하는 길을 열었습니다. 오디오 스펙트로그램 트랜스포머는 대규모 데이터셋을 활용하여 강력한 사전 훈련 모델을 생성하며, 다운스트림 작업에 미세 조정(fine-tuning) 시 CNNs를 능가합니다. 그러나 현재 인기 있는 오디오 스펙트로그램 트랜스포머는 CNNs에 비해 계산 복잡도 측면에서 높은 요구사항을 가지고 있습니다. 최근 연구에서는 트랜스포머-투-CNN 지식 증류(Knowledge Distillation) 기법을 사용함으로써 효율적인 CNN이 큰 데이터셋에서 트랜스포머를 따라잡고 심지어 능가할 수 있음을 보여주었습니다. 본 연구에서는 이러한 연구 방향을 확장하고, 동적 비선형성(dynamic non-linearities), 동적 합성곱(dynamic convolutions), 그리고 주의 메커니즘(attention mechanisms)으로 구성된 동적 CNN 블록(dynamic CNN blocks)을 도입하여 효율적인 CNN의 용량을 증가시키는 방법을 제안합니다. 실험 결과, 이들 동적 CNN은 대규모 AudioSet 상의 오디오 태깅 작업에서 성능-복잡도 균형과 매개변수 효율성 측면에서 전통적인 효율적인 CNN보다 우수함이 입증되었습니다. 또한, 도입된 동적 CNN이 다운스트림 작업에서도 더 나은 성능을 보이며 잘 확장되며, AudioSet 및 여러 다운스트림 작업에서 트랜스포머의 성능에 도달하거나 심지어 이를 초월한다는 점이 확인되었습니다.