17日前
効率的な動画処理のためのデルタ蒸留
Amirhossein Habibian, Haitam Ben Yahia, Davide Abati, Efstratios Gavves, Fatih Porikli

要約
本稿では、動画フレーム間に存在する時間的冗長性を活用することで、物体検出やセマンティックセグメンテーションなどの動画ストリーム処理を高速化することを目的としている。従来の光流(optical flow)を用いた動き整合による特徴の伝搬・ワープに代わり、我々は「デルタ蒸留(Delta Distillation)」と名付けた新たな知識蒸留スキームを提案する。本手法では、学生モデルが教師モデルの中間特徴量が時間的にどのように変化するかを学習する。我々は、動画フレーム内の時間的冗長性により、こうした時間的変化を効果的に蒸留可能であることを実証する。推論時には、教師モデルと学生モデルが協調して予測を生成する:教師モデルはキーフレーム上で抽出された初期表現を提供し、学生モデルは逐次的なフレームに対して、変化量(デルタ)を反復的に推定し、それを適用することで予測を更新する。さらに、最適な学生アーキテクチャを学習するための多様な設計選択肢を検討し、エンドツーエンド学習可能なアーキテクチャ探索手法も導入している。幅広いアーキテクチャ、特に効率性に優れたモデルを対象とした広範な実験を通じて、デルタ蒸留が動画におけるセマンティックセグメンテーションおよび物体検出の精度と効率のトレードオフにおいて、新たなSOTA(最優れた性能)を達成することを示した。最後に、デルタ蒸留は副次的な効果として、教師モデルの時間的一貫性(temporal consistency)を向上させることも明らかにした。