7ヶ月前

概要

私たちは、共有コンテキストの複数のビューから抽出された特徴量間の相互情報量を最大化する自己監督表現学習の手法を提案します。例えば、異なる位置（シーン内のカメラ位置など）から観測することで、または異なるモダリティ（触覚、聴覚、視覚など）を通じて、局所的な空間時間的なコンテキストの複数のビューを生成することができます。また、ImageNetの画像からデータ拡張を繰り返して複数のビューを生成することもできます。これらのビューから抽出された特徴量間の相互情報量を最大化するには、複数のビューに影響を与える高レベル要因に関する情報を捉える必要があります。例えば、特定の物体が存在するかどうかや特定のイベントが発生するかどうかなどの情報です。我々が提案したアプローチに基づいて、私たちは画像表現を学習するモデルを開発しました。このモデルは、私たちが考慮したタスクにおいて以前の方法よりも大幅に優れた性能を示しています。特に注目に値するのは、自己監督学習を使用して、標準的な線形評価でImageNetにおいて68.1%の精度を達成したことです。これは以前の結果より12%以上高く、同時期に行われた研究結果よりも7%高い精度となっています。さらに、我々のモデルを混合表現を使用するように拡張すると、セグメンテーション行動が自然な副産物として現れます。当該コードはオンラインで公開されています: https://github.com/Philip-Bachman/amdim-public。

ソースPDF