11日前
SegSort:セグメントの識別的ソートによるセグメンテーション
Jyh-Jing Hwang, Stella X. Yu, Jianbo Shi, Maxwell D. Collins, Tien-Ju Yang, Xiao Zhang, Liang-Chieh Chen

要約
現在の深層学習によるセマンティックセグメンテーションのほとんどは、このタスクを画素単位の分類問題として扱っている。しかし、人間がシーンを理解する際には、画素という単位ではなく、認識の基本構成要素となる知覚的なグループや構造に分解して捉えている。この知覚的構造の認識プロセスを模倣するため、本研究ではエンドツーエンドの画素単位メトリック学習アプローチを提案する。本手法では、個々の画像内での最適な視覚表現が、適切なセグメンテーションを決定し、画像間で同一のセマンティッククラスに属する領域を対応付ける。したがって、核心的な視覚学習問題は、領域内での類似性を最大化し、領域間での類似性を最小化することにある。このように学習されたモデルを用いた推論では、画素単位の埋め込みを抽出し、クラスタリングを行うことで一貫した処理が可能であり、セマンティックラベルは、アノテーション済みデータセットからの近傍画素の多数決によって決定される。その結果、本研究では、無監視セマンティックセグメンテーションに深層学習を初めて適用したSegSortを提案し、教師あり手法の76%の性能を達成した。監視情報が利用可能な場合でも、従来の画素単位のソフトマックス学習に基づくアプローチに対して一貫した性能向上を示した。さらに、本手法はより精密な境界推定と一貫性のある領域予測を実現している。また、提案するSegSortは、各ラベル選択が取得された近傍領域から容易に解釈可能であるため、結果の解釈性も高い。