17日前

PTSEFormer:動画像オブジェクト検出を指向したプログレッシブな時空間強化Transformer

Han Wang, Jun Tang, Xiaodong Liu, Shanyan Guan, Rong Xie, Li Song
PTSEFormer:動画像オブジェクト検出を指向したプログレッシブな時空間強化Transformer
要約

近年、動画像における物体検出(Video Object Detection)の性能向上を図るため、文脈フレーム(context frames)を活用する手法の導入が広がっている。従来の手法は、特徴量を一度の操作で集約することで特徴量を強化するが、これらの手法はしばしば隣接フレームからの空間情報を欠き、特徴量の集約が不十分であるという課題を抱えている。こうした問題を解決するため、本研究では時系列情報と空間情報を段階的に統合的に導入するアプローチを提案する。時系列情報は、文脈フレームと検出対象フレーム(ターゲットフレーム)の間に注目機構(attention mechanism)を適用することで、時系列特徴集約モデル(Temporal Feature Aggregation Model, TFAM)によって導入する。一方で、各文脈フレームとターゲットフレーム間の位置遷移情報を伝達するために、空間遷移認識モデル(Spatial Transition Awareness Model, STAM)を導入する。本手法はTransformerベースの検出器DETRを基盤としており、エンドツーエンドのアーキテクチャを採用することで、重い後処理プロセスを回避しつつ、ImageNet VIDデータセットにおいて88.1%のmAPを達成した。実装コードは、https://github.com/Hon-Wong/PTSEFormer にて公開されている。

PTSEFormer:動画像オブジェクト検出を指向したプログレッシブな時空間強化Transformer | 最新論文 | HyperAI超神経