要約
ラベル付きデータが極めて少ない、すなわち各カテゴリごとに2〜3サンプルしか存在しないグラフにおけるトランスダクティブ学習は、教師信号の不足により困難である。従来の手法では、単一の視点モデルを用いた自己教師学習(self-supervised learning)が広く採用されている。しかし、最近の観察では、物体の多視点表現が高次元特徴空間において同一の意味情報を共有していることが示されている。本研究では、各サンプルに対して異種(heterogeneous)な表現を生成し、視点間の一貫性損失(view-consistency loss)を用いてそれらの表現を互いに一貫させるアプローチを提案する。また、多視点表現は、視点間の相互監督(mutual supervision)を通じて偽ラベル(pseudolabel)の生成を促進する可能性を示唆している。本論文では、このような観点から、視点に依存しない意味情報を整列させることでより良い表現を学習するための「視点一貫性をもつ異種ネットワーク」(View-Consistent Heterogeneous Network, VCHN)を提案する。具体的には、2つの視点間の予測を制約することで、視点ペアが互いに監督し合う構造をVCHNに構築する。さらに、視点間情報の有効活用を図るため、より信頼性の高い偽ラベルを生成するための新しい学習戦略を提案し、これによりVCHNの予測性能を向上させている。3つのベンチマークデータセットにおける広範な実験結果から、極めて低いラベル率下でも、本手法が最先端の手法を上回る優れた性能を達成することが示された。