
深層畳み込みニューラルネットワークを用いた意味分割は、GPUに負荷の高いタスクにおいてより複雑な課題を呈しています。数百万のパラメータを計算する必要があるため、大量のメモリ消費が発生します。さらに、微細な特徴量の抽出と教師あり学習を行うことで、その複雑さが増加します。完全畳み込みニューラルネットワーク(Fully Convolutional Neural Network)の導入により、微細なストライドを使用し、逆畳み込み層を用いてアップサンプリングを行うことで、画像分割タスクにおける標準的な手法となっています。本論文では、パラメータ数を約3分の1に削減しつつ、類似のアーキテクチャよりも高い精度を達成する2つのセグメンテーションアーキテクチャを提案します。これらのモデルは、ImageNet分類データセットで事前学習されたVGG19やVGG16などの一般的なニューラルネットから重みを転送して初期化されます。次に、全結合層をすべて畳み込み層に変換し、パラメータ数を削減するために空洞畳み込み(dilated convolution)を使用します。最後に、微細なストライドを追加し、4つのスキップ接続アーキテクチャを取り入れます。これらのスキップ接続はステップごとに逆畳み込み層と要素ごとの和(element-wise sum)で連結されます。我々はPascal VOC2012、Pascal-ContextおよびNYUDv2のような異なるスパースかつ微細なデータセットで訓練およびテストを行い、提案モデルがこれらのタスクにおいてどのように優れた性能を示すかを示します。一方で、提案モデルはNVIDIA Pascal GPU上で訓練およびテストを行う際に推論時間が速く、メモリ消費も少ないため、画素単位でのセグメンテーション向けに効率的かつ低メモリ消費のアーキテクチャとなります。