2ヶ月前
任意の粒度での言語指示による普遍的セグメンテーション
Yong Liu; Cairong Zhang; Yitong Wang; Jiahao Wang; Yujiu Yang; Yansong Tang

要約
本論文は、任意の意味レベルでの普遍的なセグメンテーションを達成することを目指しています。近年、専門的なセグメンテーション手法には大きな進展が見られますが、これらの手法は特定のタスクやデータ分布に限定されています。新しいシナリオや設定への適応のために新たなモデルを再学習する際には、高額な計算コストと時間コストがかかるため、さまざまな粒度に対応できる多用途かつ普遍的なセグメンテーションモデルの需要が高まっています。一連の統合試みや様々なシナリオへの汎化が行われていますが、パラダイムの定義や入出力空間の制限により、任意の粒度でのコンテンツの正確な理解を達成することが困難となっています。これを解決するために、私たちは言語指示によって任意の意味レベルでセグメンテーションを行うことができる普遍的なセグメンテーションモデルであるUniLSeg(ユニエルセグ)を提案します。UniLSegの学習には、元々異なる分布を持つタスク群を統一されたデータ形式に再構成し、画像とセグメンテーション目標を説明するテキストを入力として対応するマスクを出力とする形式を使用します。多数の未ラベルデータを利用するために自動アノテーションエンジンも組み合わせることで、UniLSegは様々なタスクや設定において優れた性能を発揮し、専門的および統合型のセグメンテーションモデルを超える結果を得ています。