HyperAIHyperAI

Command Palette

Search for a command to run...

メモリ拡張型グローバル-ローカル集約による動画オブジェクト検出

Yihong Chen Yue Cao Han Hu Liwei Wang

概要

人間は動画の一部において物体をどのように認識するのか?単一フレームの品質が低下している場合、そのフレーム内の情報のみに依存して遮蔽された物体を特定することは困難である。本研究では、人間が動画中の物体を認識する際に重要な二つの手がかりが存在すると主張する。すなわち、グローバルな意味的情報(global semantic information)とローカルな位置情報(local localization information)である。近年、多くの手法が自己注意機構(self-attention mechanisms)を用いて、キーフレームの特徴量をグローバルな意味的情報またはローカルな位置情報によって強化している。本論文では、グローバル情報とローカル情報を両方を包括的に考慮した初の試みとして、メモリ強化型グローバル-ローカル集約(Memory Enhanced Global-Local Aggregation: MEGA)ネットワークを提案する。さらに、新しく設計された精密な長距離メモリ(Long Range Memory: LRM)モジュールによって、本手法は従来の方法よりもはるかに多くの情報をキーフレームがアクセス可能にする。この二つの情報源によって強化された本手法は、ImageNet VIDデータセットにおいて最先端の性能を達成した。コードは以下のURLから入手可能である:\url{https://github.com/Scalsol/mega.pytorch}


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています