4ヶ月前

幅広いか深いか:視覚認識のためのResNetモデルの再検討

Zifeng Wu; Chunhua Shen; Anton van den Hengel
幅広いか深いか:視覚認識のためのResNetモデルの再検討
要約

深層ニューラルネットワークへの傾向は、一般的に深さを増すことでネットワークの性能が向上すると観察されていることから推進されてきました。しかし、最近では単純に深さを増すことが必ずしも性能向上の最良の方法ではないという証拠が積み重なっています。特に他の制約条件がある場合、その傾向は顕著です。深層残差ネットワークに関する研究でも、それらが実際には単一の深層ネットワークとして動作しているわけではなく、多くの比較的浅いネットワークの集合体として機能している可能性が示唆されています。これらの問題点について検討を行い、結果として深層残差ネットワークの解釈において新しい視点を得ました。この視点は、実験的に観察されたいくつかの挙動を説明しています。これにより、ImageNet分類データセットでResNet-200などの非常に深いモデルを大幅に上回る新しい浅い残差ネットワークアーキテクチャを導き出すことができました。また、PASCAL VOC、PASCAL Context、Cityscapesなどのデータセットで最先端の手法を驚くべきマージンで上回るセマンティックセグメンテーションアプローチを開発することにより、この性能が他の問題領域にも転用可能であることを示しました。提案するアーキテクチャは、非常に深いResNetsを含む比較対象を上回りつつ、メモリ使用量ではより効率的であり、場合によっては学習時間も短縮されます。コードとモデルはhttps://github.com/itijyou/ademxapp で利用可能です。