6ヶ月前

概要

畳み込みニューラルネットワーク（CNN）における自己教師付き学習を用いた表現学習は、視覚タスクにおいて有効であることが実証されている。CNNの代替として注目されている視覚変換器（ViT）は、空間的な自己注意機構とチャネルレベルのフィードフォワードネットワークを備え、強力な表現能力を有している。近年の研究では、自己教師付き学習がViTの潜在能力を十分に引き出すのに有効であることが示されている。しかし、大多数の研究はCNN向けに設計された自己教師付き戦略（例えば、サンプルのインスタンスレベルでの識別）をそのまま採用しており、ViT固有の特性を無視している。本研究では、空間次元およびチャネル次元における関係性モデリングが、ViTを他のネットワークと区別する特徴であることに着目した。この性質を強化するために、自己教師付き学習のための特徴的自己関係（Feature Self-RElation, SERE）を提案する。具体的には、複数の視点から得られる特徴埋め込みのみを対象とする従来の自己教師付き学習とは異なり、空間的・チャネル的自己関係を用いて自己教師付き学習を実施する。この自己関係に基づく学習により、ViTの関係性モデリング能力がさらに向上し、複数の下流タスクにおいて安定して性能向上をもたらす強力な表現が得られる。本研究のソースコードは公開されており、以下のURLから入手可能である：https://github.com/MCG-NKU/SERE。

ソースPDF