2ヶ月前

密集回帰ネットワークを用いたビデオグラウンディング

Zeng, Runhao ; Xu, Haoming ; Huang, Wenbing ; Chen, Peihao ; Tan, Mingkui ; Gan, Chuang
密集回帰ネットワークを用いたビデオグラウンディング
要約

本研究は、自然言語クエリからのビデオグラウンディングの問題に取り組んでいます。このタスクにおける主要な課題は、1つの訓練用ビデオが僅か数フレームのアノテーションされた開始/終了フレームしか含まないため、モデル訓練に使用できる肯定例が限られていることです。従来の手法では、このような不均衡データを直接二値分類器で訓練するため、結果が劣ることが多いです。本論文の主要なアイデアは、真実値内のフレームと開始(終了)フレームとの距離を密集した教師データとして使用することで、ビデオグラウンディングの精度を向上させることです。具体的には、クエリで説明されるビデオセグメントの各フレームから開始(終了)フレームまでの距離を回帰する新しい密集回帰ネットワーク(Dense Regression Network: DRN)を設計しました。また、予測位置と真実値とのIoU(Intersection over Union)を明示的に考慮する単純ながら効果的なIoU回帰ヘッドモジュールも提案しています。実験結果は、本手法が3つのデータセット(Charades-STA, ActivityNet-Captions, および TACoS)において既存の最先端手法を大幅に上回ることを示しています。