15日前

聞かせてください:音声拡張時系列行動局所化のための統合的アプローチ

Anurag Bagchi, Jazib Mahmood, Dolton Fernandes, Ravi Kiran Sarvadevabhatla
聞かせてください:音声拡張時系列行動局所化のための統合的アプローチ
要約

未トリム動画における時系列行動局所化(Temporal Action Localization, TAL)の最先端アーキテクチャは、これまでRGBおよびFlowモダリティのみを考慮しており、情報豊富な音声モダリティは完全に無視されてきた。音声の融合は、やや容易であるとされるトリムされた(クリップレベルの)行動認識という関連問題に対しては検討されているが、TALは独自の課題群を抱えている。本論文では、シンプルながら効果的な融合ベースのTALアプローチを提案する。筆者の知る限り、本研究は監視付きTALにおいて音声と映像のモダリティを同時に考慮する初めての試みである。実験により、我々の手法が最先端の映像のみを用いたTALアプローチにおいて一貫して性能向上をもたらすことを示した。特に、大規模ベンチマークデータセットであるActivityNet-1.3([email protected]: 54.34)およびTHUMOS14([email protected]: 57.18)において、新たな最先端性能を達成した。実験では、複数の融合方式、モダリティの組み合わせ、およびTALアーキテクチャに関するアブレーションスタディを含んでいる。本研究のコード、モデル、および関連データは、https://github.com/skelemoa/tal-hmo にて公開されている。

聞かせてください:音声拡張時系列行動局所化のための統合的アプローチ | 最新論文 | HyperAI超神経