2ヶ月前
ビデオポリプセグメンテーション:深層学習の観点から
Ge-Peng Ji; Guobao Xiao; Yu-Cheng Chou; Deng-Ping Fan; Kai Zhao; Geng Chen; Luc Van Gool

要約
本稿では、深層学習時代における初めての包括的なビデオポリプセグメンテーション(VPS)研究を紹介します。近年、大規模な細かいセグメンテーションアノテーションの不足により、VPSの発展は容易に進んでいません。この問題に対処するために、まず高品質なフレームごとのアノテーション付きVPSデータセットを導入します。このデータセットは、有名なSUN-databaseから158,690枚の内視鏡画像を含み、「SUN-SEG」と名付けられています。さらに、属性、オブジェクトマスク、境界線、スクリブル、多角形など多様なタイプの追加アノテーションを提供しています。次に、シンプルながら効率的なベースラインモデルであるPNS+を設計しました。PNS+はグローバルエンコーダー、ローカルエンコーダー、および正規化された自己注意(Normalized Self-Attention: NS)ブロックで構成されています。グローバルエンコーダーとローカルエンコーダーはアンカーフレームと複数の連続フレームを受け取り、長期的および短期的な空間時間表現を抽出します。これらの表現は2つのNSブロックによって段階的に更新されます。多数の実験結果から、PNS+が最高の性能とリアルタイム推論速度(170fps)を達成しており、VPSタスクに対する有望な解決策であることが示されました。さらに、我々はSUN-SEGデータセット上で13種類の代表的なポリプ/オブジェクトセグメンテーションモデルを広範囲に評価し、属性に基づく比較を行いました。最後に、いくつかの未解決課題について議論し、VPSコミュニティ向けの可能な研究方向性を提案します。