11日前

自己教師付き視覚表現学習における意味的グループ化

Xin Wen, Bingchen Zhao, Anlin Zheng, Xiangyu Zhang, Xiaojuan Qi
自己教師付き視覚表現学習における意味的グループ化
要約

本稿では、ラベルなしのシーン中心型データから視覚的表現を学習する問題に取り組む。従来の研究は、シーン中心型データに内在する複雑な構造を活用する可能性を示しているが、多くの場合、手作業で設計されたオブジェクト性の事前知識(objectness priors)や特化した事前タスク(pretext tasks)に依存して学習フレームワークを構築しており、一般化性能に悪影響を及ぼす可能性がある。これに対して、本研究ではデータ駆動型の意味的スロット(semantic slots)からの対照学習(contrastive learning)を提案する。これを「SlotCon」と呼ぶ。SlotConは、意味的グルーピングと表現学習を同時に実現する手法であり、ピクセルを学習可能なプロトタイプ群に割り当てる形で意味的グルーピングを実施する。これらのプロトタイプは、特徴量に対して注意機構(attentive pooling)を用いて各サンプルに適応的に形成され、新たなスロットを構成する。得られたデータ依存型スロットを基に、対照的な目的関数を用いて表現学習を実施することで、特徴量の識別性が向上し、逆に意味的に一貫性のあるピクセルをより効果的にグループ化することが可能となる。従来の手法と比較して、意味的グルーピングと対照学習という二つの相互依存する目的関数を同時に最適化する本手法は、手作業による事前知識に依存することなく、シーン中心型画像からオブジェクトまたはグループレベルの表現を学習することが可能である。実験結果から、本手法は複雑なシーンを意味的グループに効果的に分解し、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションといった下流タスクにおいて顕著な性能向上をもたらすことが示された。コードは以下のURLで公開されている:https://github.com/CVMI-Lab/SlotCon。