
要約
物体検出の弱教師あり学習は、画像理解において重要な問題であり、まだ満足のいく解決策が見つかっていない。本論文では、大規模な画像レベル分類タスクで事前学習された深層畳み込みニューラルネットワークの力を活用することで、この問題に取り組む。我々は、このようなネットワークを画像領域レベルで動作させるように修正し、領域選択と分類を同時に実行する弱教師あり深層検出アーキテクチャを提案する。画像分類器として訓練されたこのアーキテクチャは、PASCAL VOCデータ上で代替の弱教師あり検出システムよりも優れた物体検出器を暗黙的に学習する。また、このモデルは単純かつ優雅なエンドツーエンドのアーキテクチャであり、画像レベル分類タスクにおいて標準的なデータ拡張や微調整技術を上回る性能を示している。注:「弱教師あり学習」(weakly supervised learning)、「深層畳み込みニューラルネットワーク」(deep convolutional neural networks)、「PASCAL VOCデータ」(PASCAL VOC data)などの専門用語は一般的な日本語訳を使用しています。