検出器フリーな弱教師付き接地による分離

近年、画像とその周囲に付随する自由形式のテキストが弱く対応するデータが多数存在している。弱教師付きフレーズ接地(Weakly Supervised Phrase Grounding, WSG)は、これらのデータを活用して、追加のアノテーションなしに任意のテキストフレーズを画像内で局所化(接地)する能力を学習するタスクを扱う。しかし、最近の最先端(SotA)WSG手法の多くは、事前に学習された物体検出器の存在を仮定しており、局所化に用いる領域候補(ROIs)をその検出器に依存している。本研究では、事前学習済みの検出器に依存しない「検出器フリーWSG(Detector-Free WSG, DF-WSG)」というタスクに焦点を当てる。我々は、画像と対応する自由形式テキストのペアから直接すべてを学習するアプローチを採用することで、検出器がカバーしていないカテゴリに対して特に有利な性能を発揮する可能性を示す。本研究で提案する「分離による接地(Grounding by Separation, GbS)」の鍵となるアイデアは、任意の画像ペアをランダムにアルファブレンドして「テキストから画像領域への対応」を合成し、そのペアに付随するテキストを条件として、ブレンドされた画像からセグメンテーションネットワークを用いてアルファマップを復元することにある。テスト時には、この手法により、クエリフレーズを条件として非ブレンドのクエリ画像を処理でき、テスト画像を「フレーズに対応する領域」と「補完領域」の合成と解釈できる。本アプローチにより、Flickr30K、Visual Genome、ReferItなどの複数のベンチマークにおいて、従来のDF-WSGのSotA手法と比較して最大8.5%の精度向上を達成した。さらに、検出器に基づくWSGアプローチと比較して、7%以上の顕著な補完的改善も示した。