{Xiaojun Chang Yu Qiao Yali Wang Mingfei Han}

要約
最近の研究では、異なるフレームからの提案領域(proposal)に関する文脈情報を統合することで、動画オブジェクト検出の性能が明確に向上することが示されている。しかしながら、これらの手法は主に単一動画内の提案領域間の内在的関係に着目している一方で、異なる動画間の提案領域間の関係性にはほとんど注目しておらず、これは認識が困難なオブジェクトを区別する上で重要な手がかりを提供できる可能性がある。この限界を克服するため、本研究では新たな「動画間提案関係モジュール(Inter-Video Proposal Relation module)」を提案する。本モジュールは簡潔な多段階トリプレット選択スキームに基づき、異なる動画間の難易度の高い提案領域間の関係をモデル化することで、効果的なオブジェクト表現を学習可能となる。さらに、階層的なアプローチにより、動画内および動画間の提案関係を統合することで、階層的動画関係ネットワーク(Hierarchical Video Relation Network, HVR-Net)を構築した。この設計により、動画内および動画間の文脈情報を段階的に活用し、動画オブジェクト検出性能を向上させることができる。本手法は大規模な動画オブジェクト検出ベンチマークであるImageNet VID上で検証され、HVR-Netは最先端(SOTA)の性能を達成した。コードおよびモデルは後日公開される予定である。
コードリポジトリ
ベンチマーク
| ベンチマーク | 方法論 | 指標 |
|---|---|---|
| video-object-detection-on-imagenet-vid | HVRNet (ResNeXt101-32x4d) | MAP : 85.5 |
| video-object-detection-on-imagenet-vid | HVRNet (ResNest101) | MAP : 83.8 |