6ヶ月前

畳み込みニューラルネットワーク

ビデオ処理

コンピュータビジョン

アプローチ／フレームワーク

コンピュータビジョン

Tianyu He Xin Jin Xu Shen Jianqiang Huang Zhibo Chen Xian-Sheng Hua

概要

ビデオベースの人物再識別（re-ID）は、複数の動画クリップ間で同一人物を一致させるタスクを目的としています。その成功の鍵は、マルチスケールの微細な特徴を効率的に活用しつつ、それらの特徴間における構造的相互作用を適切に構築することにあります。本論文では、CNNベースとAttentionベースのアーキテクチャの長所を融合したハイブリッドフレームワークである「Dense Interaction Learning（DenseIL）」を提案します。DenseILはCNNエンコーダとDense Interaction（DI）デコーダから構成されています。CNNエンコーダは、判別力のある空間特徴を効率的に抽出する役割を担い、DIデコーダはフレーム間の空間時間的内在的相互作用を密にモデル化するように設計されています。従来の手法とは異なり、本手法ではDIデコーダが中間段階の微細なCNN特徴に密に注目させることで、各動画クリップに対してマルチグレインの空間時間的表現を自然に生成します。さらに、空間時間的入力間の位置関係を調査するために、DIデコーダに「空間時間的位置埋め込み（Spatio-TEmporal Positional Embedding, STEP-Emb）」を導入しました。実験の結果、複数の標準的なビデオベース人物再識別データセットにおいて、DenseILは一貫してかつ顕著に、既存の最先端手法を上回る性能を達成しました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

畳み込みニューラルネットワーク

ビデオ処理

コンピュータビジョン

アプローチ／フレームワーク

コンピュータビジョン

Tianyu He Xin Jin Xu Shen Jianqiang Huang Zhibo Chen Xian-Sheng Hua

概要

ビデオベースの人物再識別（re-ID）は、複数の動画クリップ間で同一人物を一致させるタスクを目的としています。その成功の鍵は、マルチスケールの微細な特徴を効率的に活用しつつ、それらの特徴間における構造的相互作用を適切に構築することにあります。本論文では、CNNベースとAttentionベースのアーキテクチャの長所を融合したハイブリッドフレームワークである「Dense Interaction Learning（DenseIL）」を提案します。DenseILはCNNエンコーダとDense Interaction（DI）デコーダから構成されています。CNNエンコーダは、判別力のある空間特徴を効率的に抽出する役割を担い、DIデコーダはフレーム間の空間時間的内在的相互作用を密にモデル化するように設計されています。従来の手法とは異なり、本手法ではDIデコーダが中間段階の微細なCNN特徴に密に注目させることで、各動画クリップに対してマルチグレインの空間時間的表現を自然に生成します。さらに、空間時間的入力間の位置関係を調査するために、DIデコーダに「空間時間的位置埋め込み（Spatio-TEmporal Positional Embedding, STEP-Emb）」を導入しました。実験の結果、複数の標準的なビデオベース人物再識別データセットにおいて、DenseILは一貫してかつ顕著に、既存の最先端手法を上回る性能を達成しました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

ビデオベースの人物再識別における密集相互作用学習 | 記事 | HyperAI超神経