15일 전

EquiAV: 오디오-비주얼 대조 학습을 위한 등변성 활용

Jongsuk Kim, Hyeongkeun Lee, Kyeongha Rho, Junmo Kim, Joon Son Chung
EquiAV: 오디오-비주얼 대조 학습을 위한 등변성 활용
초록

최근 자율 학습(audio-visual representation learning)의 발전은 풍부하고 종합적인 표현을 추출할 수 있는 잠재력을 입증하였다. 그러나 다양한 학습 방법에서 데이터 증강(data augmentation)의 장점이 입증되었음에도 불구하고, 음성-시각 학습 분야는 증강이 입력 쌍 간의 대응 관계를 쉽게 방해할 수 있기 때문에 이러한 이점을 충분히 활용하지 못하고 있다. 이 제약을 해결하기 위해, 우리는 음성-시각 대조 학습(contrastive learning)에 등변성(equivariance)을 활용하는 새로운 프레임워크인 EquiAV를 제안한다. 본 연구는 등변성을 음성-시각 학습에 확장하는 데서 시작하며, 공유된 주의 기반 변환 예측기(shared attention-based transformation predictor)를 통해 이를 실현한다. 이 기법은 다양한 증강에 의해 생성된 특징들을 하나의 대표적 임베딩으로 통합함으로써 강력한 감독 신호를 제공한다. 특히, 이 과정은 최소한의 계산 부담으로 이루어진다. 광범위한 제거 실험(ablation studies)과 질적 분석 결과는 제안한 방법의 효과성을 입증한다. EquiAV는 다양한 음성-시각 벤치마크에서 기존의 방법들을 능가하는 성능을 보였다. 코드는 https://github.com/JongSuk1/EquiAV 에서 공개되어 있다.

EquiAV: 오디오-비주얼 대조 학습을 위한 등변성 활용 | 최신 연구 논문 | HyperAI초신경