18일 전
음성-언어 학습을 위한 훈련 및 테스트 시 증강 기법 탐색
Eungbeom Kim, Jinhee Kim, Yoori Oh, Kyungsu Kim, Minju Park, Jaeheon Sim, Jinwoo Lee, Kyogu Lee

초록
본 논문에서는 오디오-언어 다중모달 학습에서 데이터 증강의 영향을 밝히는 것을 목표로 한다. 이는 그 중요성에도 불구하고 아직 탐색되지 않은 영역이다. 우리는 학습 시간뿐 아니라 테스트 시간에도 다양한 증강 방법을 탐구하며, 적절한 데이터 증강이 상당한 성능 향상으로 이어질 수 있음을 확인하였다. 특히, 본 논문에서 제안하는 오디오-언어 쌍 증강 기법인 PairMix는 최초의 다중모달 오디오-언어 증강 방법으로서, 자동 오디오 캡션 및 오디오-텍스트 검색 작업 모두에서 기존 베이스라인을 초과하는 성능을 보였다. 데이터 증강의 효과를 극대화하기 위해, 테스트 시간에 적용 가능한 다수준 테스트 시간 증강(Multi-TTA)을 제안하였다. 제안된 두 가지 방법과 단모달 증강 기법을 성공적으로 통합함으로써 오디오 캡션 과제에서 47.5 SPIDEr의 성능을 달성하였으며, 이는 베이스라인 대비 18.2%의 상대적 향상이다. 또한 오디오-텍스트 검색 과제에서도 제안된 방법들이 성능 향상을 보였다.