2ヶ月前
画像レベルの教師あり空間正則化を用いた多ラベル画像分類の学習
Feng Zhu; Hongsheng Li; Wanli Ouyang; Nenghai Yu; Xiaogang Wang

要約
多ラベル画像分類は、コンピュータビジョンにおける基本的な課題であるが、その難しさも指摘されている。近年、ラベル間の意味論的関係を活用することで大きな進展が見られている。しかし、従来の手法では、多ラベル画像におけるラベル間の空間的関係をモデル化することができない。これは、一般的にラベルの空間的アノテーションが提供されていないためである。本論文では、画像レベルの教師データのみを使用して、ラベル間の意味論的および空間的関係を活用する統一された深層ニューラルネットワークを提案する。多ラベル画像に対して、提案した空間正則化ネットワーク(SRN)はすべてのラベルに対する注意マップを生成し、学習可能な畳み込みを通じてそれらの潜在的な関係を捉える。ResNet-101ネットワークによる元の分類結果と正則化された分類結果を集約することにより、分類性能が一貫して向上することが確認された。この全体的な深層ニューラルネットワークは、画像レベルのアノテーションのみでエンドツーエンドで訓練されるため、追加的な画像アノテーションに関する努力は必要ない。異なる種類のラベルを持つ3つの公開データセットでの広範な評価により、我々の手法が既存の最先端技術を大幅に上回り、高い汎化能力を持つことが示された。学習したSRNモデルの分析では、分類性能向上のためにラベル間の意味論的および空間的関係を効果的に捉えていることが確認された。