2ヶ月前

視覚認識のための深層高解像度表現学習

Wang, Jingdong ; Sun, Ke ; Cheng, Tianheng ; Jiang, Borui ; Deng, Chaorui ; Zhao, Yang ; Liu, Dong ; Mu, Yadong ; Tan, Mingkui ; Wang, Xinggang ; Liu, Wenyu ; Xiao, Bin
視覚認識のための深層高解像度表現学習
要約

高解像度表現は、人間の姿勢推定、意味分割、物体検出などの位置感度の高い視覚問題において不可欠です。既存の最先端フレームワークでは、まず入力画像を高解像度から低解像度への畳み込みを直列に接続したサブネットワーク(例:ResNet, VGGNet)を通じて低解像度表現にエンコードし、その後、このエンコードされた低解像度表現から高解像度表現を復元します。これに対して、我々が提案するネットワークである高解像度ネットワーク(High-Resolution Network: HRNet)は、全体のプロセスを通じて高解像度表現を維持します。このネットワークには2つの重要な特徴があります:(i) 高解像度から低解像度への畳み込みストリームを並列に接続すること;(ii) 解像度間で情報を反復的に交換すること。これらの特徴により、得られる表現は意味的により豊かで、空間的により正確になります。我々はHRNetの優位性を人間の姿勢推定、意味分割、物体検出など幅広い応用分野で示しており、HRNetがコンピュータビジョン問題に対するより強力なバックボーンであることを示唆しています。すべてのコードは\url{https://github.com/HRNet}で入手可能です。