
要約
デフォーマブル畳み込みネットワーク(Deformable Convolutional Networks)の優れた性能は、物体の幾何学的な変動に適応する能力から生まれています。その適応行動を検討することで、空間的な特徴量のサポートが通常のConvNetsよりも物体構造に密接に適合していることが確認できますが、それでも関心領域を超えて広範囲に及ぶ場合があり、特徴量が無関係な画像コンテンツによって影響を受ける可能性があります。この問題に対処するために、我々はデフォーマブル畳み込みネットワークの再定式化を提案します。これにより、モデル化能力の向上と強化された訓練を通じて、より重要な画像領域に焦点を当てる能力が改善されます。モデル化能力は、ネットワーク内でのデフォーマブル畳み込みのより包括的な統合と、変形モデリングの範囲を拡大するための調節メカニズム(modulation mechanism)の導入によって向上します。この豊富なモデル化機能を効果的に活用するために、我々は提案する特徴量模倣スキーム(feature mimicking scheme)を通じてネットワーク訓練をガイドします。これによりネットワークはR-CNN特徴量が示す物体焦点と分類力を持つ特徴量を学習することができます。これらの貢献により、新しいバージョンのデフォーマブル畳み込みネットワークは元のモデルに対して大幅な性能向上を達成し、COCOベンチマークにおける物体検出とインスタンスセグメンテーションで最先端の結果を生み出しています。