
要約
畳み込みネットワークは、階層的な特徴を生成する強力な視覚モデルです。本研究では、エンドツーエンドで訓練されたピクセルからピクセルへの畳み込みネットワークが、意味的セグメンテーションのこれまでの最高結果を上回ることを示しています。我々の重要な洞察は、「完全に畳み込み」(fully convolutional)ネットワークを構築することであり、このネットワークは任意のサイズの入力を取り、効率的な推論と学習により対応するサイズの出力を生成します。完全に畳み込みネットワークの空間を定義し詳細に説明し、その空間的に密集した予測タスクへの適用方法を解説するとともに、以前のモデルとの関連性も指摘します。現代の分類ネットワーク(AlexNet、VGG net、GoogLeNet)を完全に畳み込みネットワークに適応させ、微調整によって学習された表現をセグメンテーションタスクに転送します。さらに、深層で粗い層からの意味的情報と浅層で細かい層からの外観情報を取り入れて正確かつ詳細なセグメンテーションを行うスキップアーキテクチャを定義します。我々の完全に畳み込みネットワークは、PASCAL VOC(2012年の平均IUで30%相対改善して67.2%)、NYUDv2、SIFT Flow、およびPASCAL-Contextでのセグメンテーション性能を向上させています。典型的な画像に対する推論時間は1秒の10分之1となっています。