8ヶ月前

畳み込みニューラルネットワーク

ビデオ処理

アプローチ／フレームワーク

コンピュータビジョン

Dahun Kim Donghyeon Cho In So Kweon

概要

自己監督タスク、例えば着色（colorization）、欠損補完（inpainting）、ジグソーパズルが、ラベル付き画像の数が限られているか全く存在しない場合に、静止画の視覚表現学習のために利用されてきました。最近では、人間によるラベリングのコストがさらに高くなる動画領域にもこの価値ある研究の流れが拡大しています。しかし、既存の方法の多くは依然として2次元CNNアーキテクチャに基づいており、動画アプリケーションに必要な時空間情報を直接捉えることができません。本論文では、大規模な動画データセットを使用して3次元CNNを訓練する新しい自己監督タスクである\textit{時空間キュービックパズル}を導入します。このタスクでは、ネットワークに並べ替えられた3次元時空間クロップを配置させることが要求されます。\textit{時空間キュービックパズル}を完成させることで、ネットワークは動画フレームの空間的な外観と時間的な関係性を学習し、これが我々の最終目標です。実験においては、我々が学習した3次元表現がアクション認識タスクに良好に転移することを示し、UCF101およびHMDB51データセットにおいて最新の2次元CNNベースの競合他社よりも優れた性能を発揮することを確認しました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

畳み込みニューラルネットワーク

ビデオ処理

アプローチ／フレームワーク

コンピュータビジョン

Dahun Kim Donghyeon Cho In So Kweon

概要

自己監督タスク、例えば着色（colorization）、欠損補完（inpainting）、ジグソーパズルが、ラベル付き画像の数が限られているか全く存在しない場合に、静止画の視覚表現学習のために利用されてきました。最近では、人間によるラベリングのコストがさらに高くなる動画領域にもこの価値ある研究の流れが拡大しています。しかし、既存の方法の多くは依然として2次元CNNアーキテクチャに基づいており、動画アプリケーションに必要な時空間情報を直接捉えることができません。本論文では、大規模な動画データセットを使用して3次元CNNを訓練する新しい自己監督タスクである\textit{時空間キュービックパズル}を導入します。このタスクでは、ネットワークに並べ替えられた3次元時空間クロップを配置させることが要求されます。\textit{時空間キュービックパズル}を完成させることで、ネットワークは動画フレームの空間的な外観と時間的な関係性を学習し、これが我々の最終目標です。実験においては、我々が学習した3次元表現がアクション認識タスクに良好に転移することを示し、UCF101およびHMDB51データセットにおいて最新の2次元CNNベースの競合他社よりも優れた性能を発揮することを確認しました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています