4ヶ月前

マルチモーダル

ビデオ理解

マルチモーダル

コンピュータビジョン

Monfort Mathew Andonian Alex Zhou Bolei Ramakrishnan Kandan Bargal Sarah Adel

概要

本稿では、3秒間にわたって展開する動的な出来事に対応する100万本の短い動画から構成される、大規模な人間によるアノテーション付きデータセット「Moments in Time」を紹介する。3秒間の動画内で発生する行動の空間的・音響的・時間的ダイナミクスをモデル化することは、多くの課題を伴う。意味のある出来事とは、人間だけでなく、物体、動物、自然現象も含む。また、視覚的・聴覚的な出来事は時間的に対称的（「開く」は「閉じる」の逆）である場合もあり、瞬間的なものもあれば持続的なものもある。本研究では、データセットのアノテーションプロセス（各動画に対して339種類の行動・活動ラベルのうち1つを付与）を詳述し、他の大規模な行動認識用動画データセットと比較してその規模と多様性を分析する。さらに、空間的・時間的・音響的の3モダリティを個別に、および統合的に扱う複数のベースラインモデルの実験結果を報告する。空間的および音響的モダリティにおいて広範なカバレッジと多様性を備えたMoments in Timeデータセットは、人間が日常的に行っているような複雑さと抽象的推論能力にまで対応できるモデルの開発に対する新たな課題として機能する。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

4ヶ月前

マルチモーダル

ビデオ理解

マルチモーダル

コンピュータビジョン

Monfort Mathew Andonian Alex Zhou Bolei Ramakrishnan Kandan Bargal Sarah Adel

概要

本稿では、3秒間にわたって展開する動的な出来事に対応する100万本の短い動画から構成される、大規模な人間によるアノテーション付きデータセット「Moments in Time」を紹介する。3秒間の動画内で発生する行動の空間的・音響的・時間的ダイナミクスをモデル化することは、多くの課題を伴う。意味のある出来事とは、人間だけでなく、物体、動物、自然現象も含む。また、視覚的・聴覚的な出来事は時間的に対称的（「開く」は「閉じる」の逆）である場合もあり、瞬間的なものもあれば持続的なものもある。本研究では、データセットのアノテーションプロセス（各動画に対して339種類の行動・活動ラベルのうち1つを付与）を詳述し、他の大規模な行動認識用動画データセットと比較してその規模と多様性を分析する。さらに、空間的・時間的・音響的の3モダリティを個別に、および統合的に扱う複数のベースラインモデルの実験結果を報告する。空間的および音響的モダリティにおいて広範なカバレッジと多様性を備えたMoments in Timeデータセットは、人間が日常的に行っているような複雑さと抽象的推論能力にまで対応できるモデルの開発に対する新たな課題として機能する。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています