2ヶ月前

サッカー動作検出の改善:音声と映像ストリームの両方を使用して

Vanderplaetse, Bastien ; Dupont, Stéphane
サッカー動作検出の改善:音声と映像ストリームの両方を使用して
要約

本論文では、サッカー映像における多モーダル(音声と映像)アクションスポットティングおよび分類に関する研究を提案します。アクションスポットティングおよび分類は、映像内のイベントの時間的な基準点を見つけることと、それがどのイベントであるかを決定することを目的としたタスクです。これは一般的な活動理解の重要な応用例です。本研究では、深層ニューラルネットワークアーキテクチャの異なる段階で音声情報と映像情報を組み合わせる実験的研究を提案します。SoccerNetベンチマークデータセットを使用しました。このデータセットには、ビッグファイブヨーロッパリーグから500試合のサッカー映像の注釈付きイベントが含まれています。本研究を通じて、音声ストリームを映像のみに基づくアーキテクチャに統合するいくつかの方法を評価しました。その結果、アクション分類タスクにおいて平均精度(mean Average Precision: mAP)メトリックで平均絶対改善率7.43%、アクションスポットティングタスクにおいて4.19%の改善が観察されました。

サッカー動作検出の改善:音声と映像ストリームの両方を使用して | 最新論文 | HyperAI超神経