6ヶ月前

ビデオ理解

畳み込みニューラルネットワーク

アプローチ／フレームワーク

コンピュータビジョン

Yong Won Hong Jongkwang Hong Bora Cho Hyeran Byun

概要

行動認識の研究において、RGB画像から視覚センサーを通じて学習される主な情報は、外見情報と運動情報の2種類である。しかし、行動の特徴によっては、特定の物体の存在や画像内のグローバルに共有される情報といった文脈情報が、行動を定義する上で極めて重要となる。たとえば、「蹴る」と「走る」を区別する上で、ボールの存在は極めて重要な情報となる。さらに、一部の行動は典型的なグローバルな抽象的な姿勢を共有しており、これらを行動分類の鍵として利用できる。これらの観察に基づき、本研究では、画像内の空間的・時間的・文脈的情報を統合するマルチストリームネットワークモデルを提案する。本手法の有効性を検証するため、C3Dまたはインフレート3D畳み込みネットワーク（I3D）をバックボーンネットワークとして用い、2種類の異なる行動認識データセット上で実験を行った。その結果、全体的に精度の向上が確認され、提案手法の有効性が示された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

ビデオ理解

畳み込みニューラルネットワーク

アプローチ／フレームワーク

コンピュータビジョン

Yong Won Hong Jongkwang Hong Bora Cho Hyeran Byun

概要

行動認識の研究において、RGB画像から視覚センサーを通じて学習される主な情報は、外見情報と運動情報の2種類である。しかし、行動の特徴によっては、特定の物体の存在や画像内のグローバルに共有される情報といった文脈情報が、行動を定義する上で極めて重要となる。たとえば、「蹴る」と「走る」を区別する上で、ボールの存在は極めて重要な情報となる。さらに、一部の行動は典型的なグローバルな抽象的な姿勢を共有しており、これらを行動分類の鍵として利用できる。これらの観察に基づき、本研究では、画像内の空間的・時間的・文脈的情報を統合するマルチストリームネットワークモデルを提案する。本手法の有効性を検証するため、C3Dまたはインフレート3D畳み込みネットワーク（I3D）をバックボーンネットワークとして用い、2種類の異なる行動認識データセット上で実験を行った。その結果、全体的に精度の向上が確認され、提案手法の有効性が示された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています