16日前
ゼロショット動画分類の再考:現実的な応用を想定したエンドツーエンド学習
Biagio Brattoli, Joseph Tighe, Fedor Zhdanov, Pietro Perona, Krzysztof Chalupka

要約
大規模なデータセットで学習された深層学習(DL)は、数百もの多様なクラスに動画を正確に分類できる。しかし、動画データのラベル付けは高コストである。ゼロショット学習(ZSL)はこの問題に対する一つの解決策を提示する。ZSLでは、モデルを一度学習させることで、訓練データセットに存在しない新たなクラスを含むタスクへ一般化することができる。本研究では、動画分類におけるZSLのための初めてのエンドツーエンドアルゴリズムを提案する。我々の学習手順は、最近の動画分類に関する研究から得られた知見に基づき、学習可能な3次元畳み込みニューラルネットワーク(3D CNN)を用いて視覚的特徴を学習する。これは、従来の動画ZSL手法が事前学習済みの特徴抽出器を用いるのに対し、本手法はその点で異なっている。また、現在のベンチマーク評価の枠組みを拡張する。従来の手法は、訓練時にテストタスクを未知として扱うことを目指しているが、その目標を十分に達成できていない。本研究では、訓練データとテストデータの間にドメインシフトを促進し、ZSLモデルを特定のテストデータセットに最適化することを禁止することで、より現実的かつ厳格な評価を実現している。その結果、最先端技術を大幅に上回る性能を達成した。本研究のコード、評価手順およびモデル重みは、github.com/bbrattoli/ZeroShotVideoClassificationにて公開されている。