8ヶ月前

ビデオ理解

畳み込みニューラルネットワーク

マルチモーダル

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Michael S. Ryoo AJ Piergiovanni Mingxing Tan Anelia Angelova

概要

ビデオの表現を学習することは、アルゴリズム的にも計算的にも非常に困難な課題である。標準的なビデオCNNアーキテクチャは、画像理解のために設計されたアーキテクチャを直接拡張して時間次元を含める方法、または2ストリーム設計を使用してビデオ内の外観と動きを捕捉する方法によって設計されてきた。私たちはビデオCNNを複数のストリームを持つ畳み込みブロックの集合体として解釈し、これらのブロックが互いに接続され、より優れた接続性と時空間相互作用を持つニューラルアーキテクチャを自動的に見つける手法を提案する。これは、接続重み学習によって導かれる過剰に接続されたアーキテクチャの集団を進化させることで行われる。異なる入力タイプ（RGBおよび光流）を複数の時間解像度で抽象化する表現を組み合わせるアーキテクチャを探し、異なる情報タイプや情報源が互いに相互作用できるようにする。私たちの手法、AssembleNet（アセンブルネット）は公開ビデオデータセットにおいて既存の手法よりも優れた性能を示し、いくつかの場合では大幅に上回っている。Charadesデータセットでは58.6%のmAP（平均精度）、Moments-in-Timeデータセットでは34.27%の精度を得ている。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

ビデオ理解

畳み込みニューラルネットワーク

マルチモーダル

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Michael S. Ryoo AJ Piergiovanni Mingxing Tan Anelia Angelova

概要

ビデオの表現を学習することは、アルゴリズム的にも計算的にも非常に困難な課題である。標準的なビデオCNNアーキテクチャは、画像理解のために設計されたアーキテクチャを直接拡張して時間次元を含める方法、または2ストリーム設計を使用してビデオ内の外観と動きを捕捉する方法によって設計されてきた。私たちはビデオCNNを複数のストリームを持つ畳み込みブロックの集合体として解釈し、これらのブロックが互いに接続され、より優れた接続性と時空間相互作用を持つニューラルアーキテクチャを自動的に見つける手法を提案する。これは、接続重み学習によって導かれる過剰に接続されたアーキテクチャの集団を進化させることで行われる。異なる入力タイプ（RGBおよび光流）を複数の時間解像度で抽象化する表現を組み合わせるアーキテクチャを探し、異なる情報タイプや情報源が互いに相互作用できるようにする。私たちの手法、AssembleNet（アセンブルネット）は公開ビデオデータセットにおいて既存の手法よりも優れた性能を示し、いくつかの場合では大幅に上回っている。Charadesデータセットでは58.6%のmAP（平均精度）、Moments-in-Timeデータセットでは34.27%の精度を得ている。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています