HyperAIHyperAI

Command Palette

Search for a command to run...

カメラセンサから得られる文脈的アクションヒントによるマルチストリームアクション認識

Yong Won Hong Jongkwang Hong Bora Cho Hyeran Byun

概要

行動認識の研究において、RGB画像から視覚センサーを通じて学習される主な情報は、外見情報と運動情報の2種類である。しかし、行動の特徴によっては、特定の物体の存在や画像内のグローバルに共有される情報といった文脈情報が、行動を定義する上で極めて重要となる。たとえば、「蹴る」と「走る」を区別する上で、ボールの存在は極めて重要な情報となる。さらに、一部の行動は典型的なグローバルな抽象的な姿勢を共有しており、これらを行動分類の鍵として利用できる。これらの観察に基づき、本研究では、画像内の空間的・時間的・文脈的情報を統合するマルチストリームネットワークモデルを提案する。本手法の有効性を検証するため、C3Dまたはインフレート3D畳み込みネットワーク(I3D)をバックボーンネットワークとして用い、2種類の異なる行動認識データセット上で実験を行った。その結果、全体的に精度の向上が確認され、提案手法の有効性が示された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています