11日前
PolyFormer:順序的な多角形生成としての参照画像セグメンテーション
Jiang Liu, Hui Ding, Zhaowei Cai, Yuting Zhang, Ravi Kumar Satzoda, Vijay Mahadevan, R. Manmatha

要約
本研究では、ピクセルレベルのセグメンテーションマスクを直接予測するのではなく、参照画像セグメンテーションの問題を逐次的な多角形生成問題として定式化し、予測された多角形は後処理によりセグメンテーションマスクに変換できるようにしている。このアプローチを実現するため、画像パッチのシーケンスとテキストクエリトークンを入力とし、自己回帰的に多角形の頂点のシーケンスを出力する新しいシーケンス・トゥ・シーケンスフレームワーク、Polygon Transformer(PolyFormer)を提案する。より高精度な幾何学的局所化を実現するために、座標の量子化誤差を生じさせない、直接浮動小数点座標を回帰的に予測するデコーダーを提案している。実験の結果、PolyFormerは従来手法を明確に上回り、特に挑戦的なRefCOCO+およびRefCOCOgデータセットにおいて、それぞれ5.40%および4.52%の絶対的な性能向上を達成した。また、微調整なしに参照動画セグメンテーションタスクにおいて評価した場合でも、強力な汎化性能を示しており、Ref-DAVIS17データセットにおいて61.5%のJ&F(平均適合率)を達成し、競争力のある結果を示した。