
要約
本論文は、一発物体検出(one-shot object detection)という難問に取り組むことを目指しています。訓練データに含まれていないクラスラベルを持つクエリ画像パッチが与えられた場合、このタスクの目標は対象画像内の同じクラスのすべてのインスタンスを検出することです。この目的達成のために、私たちは新しい{\em 共同注意と共同励起} (CoAE) フレームワークを開発し、3つの主要な技術的側面で貢献しています。第一に、非局所操作(non-local operation)を使用して各クエリ-対象ペアに内在する共同注意を探索し、一発状況に対応した領域提案を生成することを提案します。第二に、圧縮と共同励起スキーム(squeeze-and-co-excitation scheme)を定式化し、関連する特徴チャネルを適応的に強調することで関連する提案を明らかにし、最終的には対象物体を見つけることを支援します。第三に、マージンベースのランキング損失(margin-based ranking loss)を設計し、訓練中にそのクラスラベルが見知らか未知であるに関わらず、領域提案と基礎となるクエリとの類似性を予測するための計量を暗黙的に学習します。これにより得られるモデルは、VOCおよびMS-COCOにおいて既知および未知のクラスからの物体検出の一発設定で強力な基準性能を示す2段階検出器となります。コードは https://github.com/timy90022/One-Shot-Object-Detection から入手可能です。