
本研究では、畳み込みニューラルネットワーク(Convolutional Neural Networks)によって抽出された局所的な汎用特徴量と、再帰型ニューラルネットワーク(Recurrent Neural Networks, RNN)の遠隔依存関係を取得する能力を活用した構造予測アーキテクチャを提案します。この提案されたアーキテクチャは ReSeg と呼ばれ、画像分類のために最近導入された ReNet モデルに基づいています。私たちは ReNet を改変し、拡張して、より困難なセマンティックセグメンテーションのタスクを実行できるようにしました。各 ReNet 層は、水平方向と垂直方向の両方で画像をスキャンする4つの RNN から構成されており、パッチや活性化をエンコードし、関連性のある全体的な情報を提供します。さらに、ReNet 層は事前学習済みの畳み込み層の上に積み重ねられており、局所的な汎用特徴量を利用する利点があります。最終的な予測で元の画像解像度を回復するために、ReNet 層の後にアップサンプリング層が続きます。提案された ReSeg アーキテクチャは効率的であり、柔軟性があり、さまざまなセマンティックセグメンテーションタスクに適しています。私たちは ReSeg をいくつかの広く使用されているセマンティックセグメンテーションデータセット(Weizmann Horse, Oxford Flower, CamVid)で評価し、最先端の性能を達成しました。結果は ReSeg がセマンティックセグメンテーションタスクに適したアーキテクチャであることを示しており、他の構造予測問題にもさらなる応用が期待されます。ソースコードおよびモデルのハイパーパラメータは https://github.com/fvisin/reseg で公開されています。