16日前
data2vec:音声、視覚および言語における自己教師学習のための汎用フレームワーク
Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, Michael Auli

要約
自己教師学習の基本的な考え方は、モダリティを問わず同一であるが、実際のアルゴリズムや目的関数は、それぞれが単一のモダリティに特化して開発されたため、大きく異なっている。汎用的な自己教師学習に近づけるために、我々はデータ2ベクトル(data2vec)というフレームワークを提案する。このフレームワークは、音声、自然言語処理(NLP)、コンピュータビジョンのいずれのモダリティに対しても、同一の学習手法を適用可能である。その核心的なアイデアは、標準的なTransformerアーキテクチャを用いた自己蒸留(self-distillation)設定において、入力データの一部をマスクしたビューに基づいて、全体の入力データに対する潜在表現(latent representations)を予測することである。従来の方法が局所的な性質を持つモダリティ固有のターゲット(例えば単語、視覚トークン、人間の発話単位など)を予測するのに対し、data2vecは入力全体から得られるコンテキストを反映した潜在表現を予測する。音声認識、画像分類、自然言語理解の主要なベンチマークにおける実験結果から、従来の最先端手法と比較して新たな最良成績を達成するか、あるいは同等の性能を発揮することが示された。