17日前
自然界における透明物体のセグメンテーション:Transformerを活用した手法
Enze Xie, Wenjia Wang, Wenhai Wang, Peize Sun, Hang Xu, Ding Liang, Ping Luo

要約
本研究では、透明物体の細粒度セグメンテーションを目的とした新しいデータセット「Trans10K-v2」を提案する。これは、最初の大規模な透明物体セグメンテーションデータセットであるTrans10K-v1を拡張したものであり、以下の点で優れた特徴を持つ。まず、Trans10K-v1が2つの限定されたカテゴリしか含まないのに対し、本データセットは人間の家庭環境で一般的に見られる11の細粒度カテゴリを含んでおり、実世界への応用可能性が高まっている。第二に、現行の最先端セグメンテーション手法にとってより高い挑戦をもたらす、より複雑な状況を再現している。さらに、本研究では新たなTransformerベースのセグメンテーションパイプライン「Trans2Seg」を提案する。まず、Trans2SegのTransformerエンコーダは、CNNの局所的感受野とは対照的にグローバルな感受野を提供し、純粋なCNNアーキテクチャに比べて顕著な優位性を示す。第二に、セマンティックセグメンテーションを辞書検索問題として定式化することで、Transformerデコーダのクエリとして学習可能なプロトタイプ群を設計した。各プロトタイプは、データセット全体における特定のカテゴリの統計特性を学習する。本研究では20種類以上の最近のセマンティックセグメンテーション手法をベンチマークし、Trans2SegがすべてのCNNベースの手法を顕著に上回ることを実証した。これにより、本手法が透明物体セグメンテーションの課題を効果的に解決する可能性を示している。