11日前

TadML:Mechanics-MLPを用いた高速な時系列行動検出

Bowen Deng, Dongchang Liu
TadML:Mechanics-MLPを用いた高速な時系列行動検出
要約

時系列行動検出(Temporal Action Detection: TAD)は、動画理解において重要でありながらも挑戦的なタスクである。このタスクの目的は、長時間にわたる未編集動画内に含まれる各行動インスタンスについて、その行動種別および開始・終了フレームを検出することにある。現在の大多数のモデルは、TADタスクにおいてRGB画像とオプティカルフロー(Optical-Flow)の両ストリームを採用している。そのため、元のRGBフレームをオプティカルフロー形式に手動で変換する必要があり、追加の計算負荷と時間コストが発生する。このプロセスはリアルタイム処理の実現を阻害する大きな障壁となっている。現在、多くのモデルは2段階アプローチを採用しているが、これは推論速度を低下させ、提案領域生成のチューニングを複雑にする要因となっている。これに対し、本研究ではRGBストリームのみを用いた1段階かつアンカーフリーな時系列局所化手法を提案する。この手法では、新たなニュートン力学に基づくMLP(Newtonian Mechanics-MLP)アーキテクチャを構築した。このアーキテクチャは、既存の最先端モデルと同等の精度を達成しつつ、推論速度において大幅に優れている。本研究における典型的な推論速度は、THUMOS14データセット上で驚異的な1秒あたり4.44動画という結果を達成した。実応用においては、オプティカルフローへの変換が不要であるため、さらに高速な推論が可能となる。また、本研究はMLPがTADをはじめとする下流タスクにおいて極めて高い潜在能力を有していることを示している。実装コードは以下のURLから公開されている:https://github.com/BonedDeng/TadML

TadML:Mechanics-MLPを用いた高速な時系列行動検出 | 最新論文 | HyperAI超神経