
要約
監督学習は多くのアプリケーションにおいて大きな進歩をもたらしましたが、非監督学習はそのような広範な採用を見せず、依然として人工知能にとって重要な課題となっています。本研究では、高次元データから有用な表現を抽出する普遍的な非監督学習手法である「対照的予測符号化(Contrastive Predictive Coding)」を提案します。当モデルの主要な洞察は、強力な自己回帰モデルを使用して潜在空間で未来を予測することにより、このような表現を学習することです。私たちは確率的な対照的損失関数を使用し、これにより潜在空間は未来のサンプルを予測するために最大限に有用な情報を捉えるように誘導されます。また、ネガティブサンプリングを使用することでモデルの計算可能性が確保されます。これまでの多くの研究は特定のモダリティにおける表現の評価に焦点を当ててきましたが、我々は本手法が音声、画像、テキスト、および3D環境での強化学習という4つの異なる領域で有用な表現を学習し、高い性能を達成できることを示しています。