HyperAIHyperAI

Command Palette

Search for a command to run...

data2vec:音声、視覚および言語における自己教師学習のための汎用フレームワーク

Alexei Baevski Wei-Ning Hsu Qiantong Xu Arun Babu Jiatao Gu Michael Auli

概要

自己教師学習の基本的な考え方は、モダリティを問わず同一であるが、実際のアルゴリズムや目的関数は、それぞれが単一のモダリティに特化して開発されたため、大きく異なっている。汎用的な自己教師学習に近づけるために、我々はデータ2ベクトル(data2vec)というフレームワークを提案する。このフレームワークは、音声、自然言語処理(NLP)、コンピュータビジョンのいずれのモダリティに対しても、同一の学習手法を適用可能である。その核心的なアイデアは、標準的なTransformerアーキテクチャを用いた自己蒸留(self-distillation)設定において、入力データの一部をマスクしたビューに基づいて、全体の入力データに対する潜在表現(latent representations)を予測することである。従来の方法が局所的な性質を持つモダリティ固有のターゲット(例えば単語、視覚トークン、人間の発話単位など)を予測するのに対し、data2vecは入力全体から得られるコンテキストを反映した潜在表現を予測する。音声認識、画像分類、自然言語理解の主要なベンチマークにおける実験結果から、従来の最先端手法と比較して新たな最良成績を達成するか、あるいは同等の性能を発揮することが示された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています