
最近、ビデオ要約(video summarization)はコンピュータビジョン分野においてますます注目を集めている。しかし、アノテーション付きデータの不足がこのタスクにおける主要な障壁となっている。本研究では、豊富な学習データを備えた関連タスク(すなわち、ビデオmoment localization)からサンプルを転送する新たなアプローチを検討することで、この課題に取り組む。我々の核心的な洞察は、アノテーションされたビデオmomentは、実質的にビデオの意味的ハイライトを示しており、ビデオ要約と本質的に類似しているということである。要するに、ビデオ要約は、冗長性を排除したsparseなビデオmomentの一種と捉えることができる。この観察に基づき、重要度伝播(importance propagation)を活用した協調的教師ネットワーク(importance Propagation based collaborative Teaching Network, iPTNet)を提案する。iPTNetは、それぞれビデオ要約とmoment localizationを担当する2つの独立モジュールから構成される。各モジュールは、キーフレームまたはキーモーメントを示すフレーム単位の重要度マップを推定する。タスク間のサンプル転送を実現するため、要約指向とローカライゼーション指向の重要度マップ間の変換を可能にする重要度伝播モジュールを設計した。これにより、一方のタスクのデータを用いて他方のタスクを最適化することが可能となる。さらに、バッチ単位での同時学習による誤差拡大を回避するため、タスク間平均教師戦略を採用する協調的教師スキームを提案。この手法により、2つのタスクの共同最適化が実現され、堅牢なフレームレベルの教師信号が提供される。ビデオ要約ベンチマークにおける広範な実験結果から、iPTNetが従来の最先端手法を顕著に上回ることを示し、ビデオ要約におけるデータ不足問題を効果的に克服する有力な解決策であることが確認された。