HyperAIHyperAI

Command Palette

Search for a command to run...

TSM: 時間シフトモジュールによる効率的なビデオ理解

Ji Lin Chuang Gan Song Han

概要

ビデオストリーミングの爆発的な成長は、高精度かつ低計算コストでビデオ理解を行うことにおける課題を引き起こしています。従来の2D CNNは計算コストが低いものの、時間的な関係性を捉えることができません。一方、3D CNNベースの手法は高性能を達成できますが、計算量が多いため導入コストが高くなります。本論文では、高い効率性と高性能を両立する汎用的かつ効果的なTemporal Shift Module(TSM)を提案します。具体的には、3D CNNに匹敵する性能を達成しながら、2D CNNの複雑さを維持することができます。TSMはチャンネルの一部を時間軸に沿ってシフトすることで、隣接フレーム間での情報交換を促進します。このモジュールは2D CNNに挿入可能であり、計算量やパラメータ数を増やすことなく時間的なモデリングを行うことができます。さらに、オンライン環境への拡張も行い、リアルタイムかつ低遅延なオンラインビデオ認識やビデオオブジェクト検出が可能になりました。TSMは精度が高く効率的で、公開時にはSomething-Somethingリーダーボードで1位となりました。Jetson NanoおよびGalaxy Note8上では、オンラインビデオ認識において13msおよび35msという低遅延を実現しています。コードは以下のURLから入手可能です:https://github.com/mit-han-lab/temporal-shift-module.


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています