HyperAIHyperAI

Command Palette

Search for a command to run...

密集回帰ネットワークを用いたビデオグラウンディング

Zeng Runhao ; Xu Haoming ; Huang Wenbing ; Chen Peihao ; Tan Mingkui ; Gan Chuang

概要

本研究は、自然言語クエリからのビデオグラウンディングの問題に取り組んでいます。このタスクにおける主要な課題は、1つの訓練用ビデオが僅か数フレームのアノテーションされた開始/終了フレームしか含まないため、モデル訓練に使用できる肯定例が限られていることです。従来の手法では、このような不均衡データを直接二値分類器で訓練するため、結果が劣ることが多いです。本論文の主要なアイデアは、真実値内のフレームと開始(終了)フレームとの距離を密集した教師データとして使用することで、ビデオグラウンディングの精度を向上させることです。具体的には、クエリで説明されるビデオセグメントの各フレームから開始(終了)フレームまでの距離を回帰する新しい密集回帰ネットワーク(Dense Regression Network: DRN)を設計しました。また、予測位置と真実値とのIoU(Intersection over Union)を明示的に考慮する単純ながら効果的なIoU回帰ヘッドモジュールも提案しています。実験結果は、本手法が3つのデータセット(Charades-STA, ActivityNet-Captions, および TACoS)において既存の最先端手法を大幅に上回ることを示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています