2ヶ月前

COCO-Stuff: コンテキストにおける物体と背景クラス

Holger Caesar; Jasper Uijlings; Vittorio Ferrari
COCO-Stuff: コンテキストにおける物体と背景クラス
要約

意味クラスは、形が明確に定義された物体(例:車、人物)である「もの」クラスと、不定形の背景領域(例:草、空)である「もの質」クラスのいずれかに分類されます。多くの分類や検出の研究では「もの」クラスに焦点を当てていますが、「もの質」クラスにはそれほど注目が払われていません。しかし、「もの質」クラスは重要な役割を果たしており、画像の重要な側面を説明するのに不可欠です。具体的には、(1) シーンの種類;(2) どの「もの」クラスが存在し得るかおよびその位置(文脈的な推論を通じて);(3) シーンの物理的属性、素材タイプ、および幾何学的特性を説明します。これらの「もの」と「もの質」を文脈の中で理解するために、COCO 2017データセットのすべての164,000枚の画像に91の「もの質」クラスのピクセル単位でのアノテーションを追加したCOCO-Stuffを導入しました。私たちはスーパーピクセルに基づく効率的な「もの質」アノテーションプロトコルを開発し、既存の「もの」アノテーションを利用しています。このプロトコルにおける速度と品質のトレードオフを定量的に評価し、アノテーション時間と境界複雑さとの関係を探りました。さらに、COCO-Stuffを使用して以下を分析しました:(a) 「もの」と「もの質」クラスが占める表面積と画像キャプションで言及される頻度における重要性;(b) 「もの」と「もの質」間の空間的な関係性を強調し、当データセットの一意性となる豊かな文脈関係について考察しました;(c) 現代的なセマンティックセグメンテーション手法が「もの」と「もの質」クラスに対してどのように機能するか、また「东西质」の方が分割が容易かどうかについて評価しました。