2ヶ月前

TSM: 時間シフトモジュールによる効率的なビデオ理解

Lin, Ji ; Gan, Chuang ; Han, Song
TSM: 時間シフトモジュールによる効率的なビデオ理解
要約

ビデオストリーミングの爆発的な成長は、高精度かつ低計算コストでビデオ理解を行うことにおける課題を引き起こしています。従来の2D CNNは計算コストが低いものの、時間的な関係性を捉えることができません。一方、3D CNNベースの手法は高性能を達成できますが、計算量が多いため導入コストが高くなります。本論文では、高い効率性と高性能を両立する汎用的かつ効果的なTemporal Shift Module(TSM)を提案します。具体的には、3D CNNに匹敵する性能を達成しながら、2D CNNの複雑さを維持することができます。TSMはチャンネルの一部を時間軸に沿ってシフトすることで、隣接フレーム間での情報交換を促進します。このモジュールは2D CNNに挿入可能であり、計算量やパラメータ数を増やすことなく時間的なモデリングを行うことができます。さらに、オンライン環境への拡張も行い、リアルタイムかつ低遅延なオンラインビデオ認識やビデオオブジェクト検出が可能になりました。TSMは精度が高く効率的で、公開時にはSomething-Somethingリーダーボードで1位となりました。Jetson NanoおよびGalaxy Note8上では、オンラインビデオ認識において13msおよび35msという低遅延を実現しています。コードは以下のURLから入手可能です:https://github.com/mit-han-lab/temporal-shift-module.

TSM: 時間シフトモジュールによる効率的なビデオ理解 | 最新論文 | HyperAI超神経