7ヶ月前

畳み込みニューラルネットワーク

ビデオ理解

アプローチ／フレームワーク

コンピュータビジョン

Jiaolong Yang Peiran Ren Dongqing Zhang Dong Chen Fang Wen Hongdong Li Gang Hua

概要

本論文では、ビデオ顔認識用のニューラル集約ネットワーク（Neural Aggregation Network: NAN）を提案します。このネットワークは、可変数の顔画像を含む個人の顔ビデオまたは顔画像集合を入力とし、認識のためにコンパクトで固定次元の特徴表現を生成します。ネットワーク全体は2つのモジュールから構成されています。特徴埋め込みモジュールは、各顔画像を特徴ベクトルにマッピングする深層畳み込みニューラルネットワーク（Convolutional Neural Network: CNN）です。集約モジュールは2つのアテンションブロックからなり、これらのブロックによって特徴ベクトルが適応的に集約され、それらによって張られる凸包内に単一の特徴が形成されます。アテンションメカニズムにより、集約は画像の順序に対して不変です。我々のNANは標準的な分類または認証損失関数を使用して訓練され、追加の監督信号なしで高品質な顔画像を推奨し、低品質な画像（例えばぼけた、遮られた、露出が不適切な顔画像）を排除する能力を自動的に学習することが確認されました。IJB-A, YouTube Face, Celebrity-1000 などのビデオ顔認識ベンチマークでの実験結果から、NANは単純な集約手法よりも一貫して優れた性能を示し、最先端の精度を達成しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

畳み込みニューラルネットワーク

ビデオ理解

アプローチ／フレームワーク

コンピュータビジョン

Jiaolong Yang Peiran Ren Dongqing Zhang Dong Chen Fang Wen Hongdong Li Gang Hua

概要

本論文では、ビデオ顔認識用のニューラル集約ネットワーク（Neural Aggregation Network: NAN）を提案します。このネットワークは、可変数の顔画像を含む個人の顔ビデオまたは顔画像集合を入力とし、認識のためにコンパクトで固定次元の特徴表現を生成します。ネットワーク全体は2つのモジュールから構成されています。特徴埋め込みモジュールは、各顔画像を特徴ベクトルにマッピングする深層畳み込みニューラルネットワーク（Convolutional Neural Network: CNN）です。集約モジュールは2つのアテンションブロックからなり、これらのブロックによって特徴ベクトルが適応的に集約され、それらによって張られる凸包内に単一の特徴が形成されます。アテンションメカニズムにより、集約は画像の順序に対して不変です。我々のNANは標準的な分類または認証損失関数を使用して訓練され、追加の監督信号なしで高品質な顔画像を推奨し、低品質な画像（例えばぼけた、遮られた、露出が不適切な顔画像）を排除する能力を自動的に学習することが確認されました。IJB-A, YouTube Face, Celebrity-1000 などのビデオ顔認識ベンチマークでの実験結果から、NANは単純な集約手法よりも一貫して優れた性能を示し、最先端の精度を達成しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

ニューラル集約ネットワークを用いたビデオ顔認識 | 記事 | HyperAI超神経