15日前
EquiAV:等変性を活用した音声視覚対照学習
Jongsuk Kim, Hyeongkeun Lee, Kyeongha Rho, Junmo Kim, Joon Son Chung

要約
自己教師あり音声視覚表現学習における最近の進展は、豊かで包括的な表現を捉える可能性を示している。しかし、多くの学習手法においてデータ拡張の有効性が実証されているにもかかわらず、音声視覚学習はその利点を十分に活用できていない。その理由は、拡張処理が入力ペア間の対応関係を容易に破壊してしまうためである。この課題に対処するため、本研究では等変性(equivariance)を活用した新たなフレームワーク、EquiAVを提案する。本手法は、共通の注目メカニズム(attention-based)変換予測器を用いて、等変性を音声視覚学習に拡張する。これにより、異なる拡張処理から得られた特徴を統合し、代表的な埋め込み表現を生成することが可能となり、堅牢な教師信号を提供する。特に、このアプローチは最小限の計算負荷で実現できる点が特徴である。広範なアブレーション研究および定性的な評価により、本手法の有効性が確認された。EquiAVは、さまざまな音声視覚ベンチマークにおいて、既存の手法を上回る性能を示した。実装コードは、https://github.com/JongSuk1/EquiAV にて公開されている。