
要約
私たちは、画像の任意の視覚的概念をセグメンテーションするというオープンワールドセマンティックセグメンテーションに取り組んでいます。この課題では、稠密なアノテーションなしで画像とテキストのペアのみを使用して学習を行います。既存のオープンワールドセグメンテーション手法は、コントラスティブラーニング(CL)を用いて多様な視覚的概念を学習し、その学習した画像レベルでの理解をセグメンテーションタスクに転用することで、著しい進歩を遂げています。しかし、これらのCLベースの手法は訓練時とテスト時の不一致に悩まされています。訓練時には画像とテキストの対応関係のみが考慮されますが、テスト時には領域とテキストの対応関係が必要となるためです。本論文では、モデルが直接領域とテキストの対応関係を学習できる新しい「Text-grounded Contrastive Learning (TCL)」フレームワークを提案します。当手法は与えられたテキストに対してセグメンテーションマスクを生成し、マスクされた領域からテキストに基づく画像埋め込みを抽出し、それをTCLを通じてテキスト埋め込みと対応させます。領域とテキストの直接的な対応関係を学習することにより、当フレームワークはモデルが生成するセグメンテーションマスクの品質向上を目指します。さらに厳密かつ公平な比較のために、8つの広く使用されているセマンティックセグメンテーションデータセットを使用した統一評価プロトコルも提示しています。TCLはすべてのデータセットにおいて大幅なマージンで最先端のゼロショットセグメンテーション性能を達成しました。コードはhttps://github.com/kakaobrain/tcl で公開されています。