2ヶ月前

GroupViT: テキスト監督から意味分割が現れる

Jiarui Xu; Shalini De Mello; Sifei Liu; Wonmin Byeon; Thomas Breuel; Jan Kautz; Xiaolong Wang
GroupViT: テキスト監督から意味分割が現れる
要約

グループ化と認識は視覚シーン理解の重要な要素であり、物体検出や意味分割などに不可欠です。エンドツーエンドの深層学習システムでは、画像領域のグループ化は通常、ピクセルレベルの認識ラベルからのトップダウン監督を通じて暗黙に行われます。本論文では、このグループ化メカニズムを深層ネットワークに再導入することを提案します。これにより、テキスト監督のみで意味的なセグメントが自動的に生成されるようになります。我々は階層的なグループ化ビジョントランスフォーマー(GroupViT)を提案し、通常のグリッド構造表現を超えて、画像領域を段階的に大きな任意形状のセグメントにグループ化する能力を学習させます。GroupViTは、大規模な画像-テキストデータセット上でコントラスティブ損失を使用してテキストエンコーダーと共に共同訓練されます。ピクセルレベルのアノテーションなしでテキスト監督のみを使用することで、GroupViTは意味的な領域をグループ化し、ゼロショット(追加の微調整なし)で意味分割タスクに成功して転移学習します。PASCAL VOC 2012データセットでは52.3% mIoU、PASCAL Contextデータセットでは22.4% mIoUというゼロショット精度を達成しており、より多くの監督が必要な最先端の転移学習手法と競争力のある性能を発揮しています。我々はコードをオープンソースとして公開しており、詳細はhttps://github.com/NVlabs/GroupViT でご確認いただけます。

GroupViT: テキスト監督から意味分割が現れる | 最新論文 | HyperAI超神経