DnS:効率的かつ高精度な動画インデキシングおよび検索のためのDistill-and-Select

本稿では、大規模なデータセットにおける高精度かつ計算効率の高いコンテンツベースの動画検索問題に取り組む。現在の手法は、主に以下の2つのアプローチに分類される:(i) 時空間表現と類似度計算を用いる細粒度アプローチ。これは高い検索精度を達成するが、計算コストが非常に高い。(ii) 動画をグローバルなベクトルとして表現・インデックス化する粗粒度アプローチ。このアプローチは時空間構造を失うため、精度は低いものの、計算コストが低く、効率的である。本研究では、高性能な細粒度の「教師ネットワーク(Teacher Network)」から出発し、以下の2点を学習する知識蒸留(Knowledge Distillation)フレームワーク「Distill-and-Select(DnS)」を提案する:(a) 検索精度と計算効率のトレードオフを調整可能な複数の「生徒ネットワーク(Student Networks)」、および (b) 推論時において、入力サンプルを適切な生徒ネットワークに迅速に割り当てる「選択ネットワーク(Selector Network)」。これにより、検索精度と計算効率の両立を実現する。我々は、異なるアーキテクチャを持つ複数の生徒ネットワークを学習し、性能と効率(処理速度およびストレージ要件)の異なるトレードオフを達成した。特に、バイナリ表現を用いて動画を格納・インデックス化する細粒度の生徒ネットワークも含まれる。重要な点として、本手法はラベルのない大規模データセット上でも知識蒸留が可能であり、優れた生徒ネットワークの学習を可能にしている。DnSは、3つの異なる動画検索タスクに対して5つの公開データセット上で評価され、以下の成果を示した:(a) 提案された生徒ネットワークは、いくつかの設定で最先端(SOTA)の性能を達成した。(b) DnSフレームワークは、検索精度、計算速度、ストレージ消費量の間で優れたトレードオフを実現した。特定の設定では、教師ネットワークと同等のmAP(平均適合率)を達成しつつ、処理速度は20倍速く、ストレージ容量は240分の1にまで削減された。本研究で収集したデータセットおよび実装コードは、公開されている:https://github.com/mever-team/distill-and-select。