HyperAIHyperAI

Command Palette

Search for a command to run...

リアルタイムセマンティックセグメンテーションのための拡張畳み込みの再考

Roland Gao

概要

セマンティックセグメンテーション用モデルを設計する際、視野(field-of-view)は重要な指標となる。大規模な視野を獲得するため、従来のアプローチでは通常、平均プーリングやストライド2の畳み込みを用いて解像度を急速に低減する手法が採用されてきた。本研究では、バックボーン全体に大きな畳み込み倍率(dilation rate)を持つ拡張畳み込み(dilated convolutions)を用いるという異なるアプローチを提案する。これにより、畳み込み倍率を調整することでバックボーンの視野を柔軟に制御可能となり、既存手法と競合可能な性能を達成できることを示した。拡張畳み込みを効果的に活用するため、畳み込み重み間にギャップが生じないよう、畳み込み倍率に簡単な上界を導入することを示した。さらに、局所的な詳細情報を保持するために、異なる畳み込み倍率を持つ2つの並列な3×33\times33×3畳み込みを用いるSE-ResNeXtを意識したブロック構造を設計した。各ブロックに対して手動で畳み込み倍率を調整するのは困難であるため、勾配降下法を用いて畳み込み倍率を最適化する微分可能なニューラルアーキテクチャ探索(differentiable neural architecture search)手法も提案した。また、従来の代替手法よりも局所情報をより効果的に復元できる軽量なデコーダーを提案した。本手法の有効性を検証するため、実時間処理を想定したCityscapesおよびCamVidデータセット上で評価を行った。混合精度(mixed precision)を用いたT4 GPU上で、RegSegはCityscapesテストセットで37FPSの速度で78.3 mIOUを達成し、CamVidテストセットでは112FPSで80.9 mIOUを実現した。これらの結果は、ImageNetでの事前学習を一切行わずに得られたものである。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています