Command Palette
Search for a command to run...
PhraseCut:ワイルドな環境における言語ベースの画像セグメンテーション
PhraseCut:ワイルドな環境における言語ベースの画像セグメンテーション
Chenyun Wu Zhe Lin Scott Cohen Trung Bui Subhransu Maji
概要
自然言語のフレーズを提示することで画像領域をセグメンテーションする問題を検討し、77,262枚の画像および345,486組のフレーズ-領域ペアを含む新規データセット上でその問題を分析する。本データセットはVisual Genomeデータセットを基盤として構築され、既存のアノテーションを活用して、対応する領域が手動でアノテートされた、高い難易度を持つ参照フレーズのセットを生成している。本データセット内のフレーズは複数の領域に対応し、物体およびストッフ(stuff)カテゴリの多様な種類に加え、色、形状、部位、および画像内における他のエンティティとの関係性といった属性を記述している。実験の結果、本データセットに含まれる概念のスケールおよび多様性が、既存の最先端技術に大きな課題を提示することが明らかになった。本研究では、これらの概念の長尾分布(long-tail nature)を体系的に扱い、カテゴリ、属性、関係性の情報を組み合わせるモジュール式アプローチを提案する。このアプローチは、既存の手法を上回る性能を達成している。