
要約
弱いラベル(例えば、画像タグのみ)によるデータから意味的セグメンテーションを学習することは、疎な意味的タグから密なオブジェクト領域を推論することが困難であるため、非常に挑戦的である。広く研究されてきたにもかかわらず、現在の大多数のアプローチは、個々の画像または画像ペアに付随する限られた意味的アノテーションから直接学習を試みており、包括的な局所化マップの取得には困難を抱えている。本研究では、豊富な弱いラベル付き学習データ間における豊かな意味的コンテキストを統合的に活用する新たな視点から、この課題を緩和する。特に、領域的意味的対比と集約(Regional Semantic Contrast and Aggregation: RCA)を提案する。RCAは、学習データに頻出する多様かつ大量のオブジェクトパターンを格納する領域的メモリバンクを備えており、データセットレベルの意味的構造の探索を強力に支援する。具体的には、i) 多数のカテゴリ別オブジェクト領域を対比させることでネットワーク学習を促進する「意味的対比」、および ii) メモリ内に蓄積された多様な関係的コンテキストを集約し、意味表現を豊かにする「意味的集約」を提案する。このようにして、RCAは細粒度な意味的理解能力を強化し、最終的にPASCAL VOC 2012およびCOCO 2014という2つの代表的なベンチマークにおいて、新たな最先端(SOTA)の成果を達成した。