17日前

ストリーミング動画分析における表現の再利用

Can Ufuk Ertenli, Ramazan Gokberk Cinbis, Emre Akbas
ストリーミング動画分析における表現の再利用
要約

本稿では、フレームごとの計算量を最小限に抑えて動画に対してフレーム単位の表現を推定することを目指す「StreamDEQ」を提案する。従来の深層ネットワークは、特別な工夫がない場合、各フレームにおいて再び特徴抽出を開始する必要がある。一方、我々は連続する動画フレーム間の時間的滑らかさをネイティブに活用できるストリーミング認識モデルの構築を目指す。最近注目されているimplicit layerモデルが、浅いネットワークの固定点として表現を定義する点に着目し、その推定に反復的手法を用いる必要があるという特徴が、このようなモデル構築の便利な基盤を提供していることに着目した。本研究の主な洞察は、各フレームにおいて最新の表現を初期値として用いることで、推論の反復処理を時間軸にわたって分散させることである。この手法により、最近の推論計算を効果的に再利用でき、処理に必要な時間を大幅に削減できる。広範な実験分析の結果、StreamDEQは数フレームの時間で近似的に最適な表現を回復し、動画全体にわたり最新の表現を維持できることを示した。動画セマンティックセグメンテーション、動画オブジェクト検出、動画中の人体ポーズ推定に関する実験において、StreamDEQはベースラインと同等の精度を達成しつつ、2~4倍以上の高速性を実現した。

ストリーミング動画分析における表現の再利用 | 最新論文 | HyperAI超神経