17日前
テキストクエリ駆動型マスクTransformerによるドメイン一般化セグメンテーション
Byeonghyun Pak, Byeongju Woo, Sunghwan Kim, Dae-hwan Kim, Hoseong Kim

要約
本稿では、視覚言語モデルのテキスト埋め込みから得られるドメイン不変な意味知識を活用することで、ドメイン一般化セマンティックセグメンテーション(DGSS)に取り組む手法を提案する。我々は、トランスフォーマーに基づくセグメンテーションフレームワーク内において、テキスト埋め込みをオブジェクトクエリとして用いる(テキストオブジェクトクエリ)。これらのクエリは、DGSSにおけるピクセルのグループ化に用いるドメイン不変な基盤と見なされる。テキストオブジェクトクエリの力を最大限に引き出すために、新たなフレームワークである「テキストクエリ駆動型マスクトランスフォーマー(tqdm)」を導入する。tqdmの目的は(1)ドメイン不変な意味情報を最大限に符号化するテキストオブジェクトクエリを生成すること、および(2)密な視覚特徴の意味的明確性を向上させることである。さらに、視覚的特徴とテキスト的特徴の間の整合性を高めるために、3種類の正則化損失関数を提案する。本手法を用いることで、モデルは注目クラスの本質的な意味情報を理解でき、極端なドメイン(例:スケッチスタイル)に対しても一般化が可能となる。tqdmはGTA5→Cityscapesの設定において68.9 mIoUを達成し、従来の最先端手法を2.5 mIoU上回った。プロジェクトページは以下のURLで公開されている:https://byeonghyunpak.github.io/tqdm。