7ヶ月前

ビデオ処理

Video Captioning

マルチモーダル

コンピュータビジョン

Serena Yeung Olga Russakovsky Ning Jin Mykhaylo Andriluka Greg Mori Li Fei-Fei

概要

行動認識において、毎瞬間が重要です。ビデオ内のヒューマンアクティビティを包括的に理解するには、発生している行動に応じて各フレームをラベリングし、複数のラベルをビデオシーケンス全体に密集させて配置する必要があります。この問題を研究するために、既存のTHUMOSデータセットを拡張し、制約のないインターネットビデオに対する密集したラベルを持つ新しいデータセットMultiTHUMOSを導入しました。複数の密集したラベルのモデリングは、クラス内およびクラス間の時間的な関係から恩恵を受けます。私たちは、これらの時間的な関係をモデル化するために、複数の入力と出力接続を持つ長期短期記憶（LSTM）深層ネットワークの新しい変種を定義しました。このモデルは、行動ラベリングの精度向上に寄与するとともに、構造化検索から行動予測までの一連のより深い理解タスクも可能にします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

ビデオ処理

Video Captioning

マルチモーダル

コンピュータビジョン

Serena Yeung Olga Russakovsky Ning Jin Mykhaylo Andriluka Greg Mori Li Fei-Fei

概要

行動認識において、毎瞬間が重要です。ビデオ内のヒューマンアクティビティを包括的に理解するには、発生している行動に応じて各フレームをラベリングし、複数のラベルをビデオシーケンス全体に密集させて配置する必要があります。この問題を研究するために、既存のTHUMOSデータセットを拡張し、制約のないインターネットビデオに対する密集したラベルを持つ新しいデータセットMultiTHUMOSを導入しました。複数の密集したラベルのモデリングは、クラス内およびクラス間の時間的な関係から恩恵を受けます。私たちは、これらの時間的な関係をモデル化するために、複数の入力と出力接続を持つ長期短期記憶（LSTM）深層ネットワークの新しい変種を定義しました。このモデルは、行動ラベリングの精度向上に寄与するとともに、構造化検索から行動予測までの一連のより深い理解タスクも可能にします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています