HyperAIHyperAI

Command Palette

Search for a command to run...

アクションセグメンテーションに必要な時間的長期文脈の量はどれほどか?

Emad Bahrami Gianpiero Francesca Juergen Gall

概要

動画における長期的な文脈のモデリングは、時系列行動分割を含む多くの細粒度タスクにとって不可欠である。現在なお未解決の興味深い問題として、「最適な性能を発揮するために、どの程度の長期的な時系列的文脈が必要か」がある。トランスフォーマーは動画の長期的文脈をモデル化できるが、長時間の動画に対しては計算コストが膨大となり、実用上困難となる。そのため、最近の時系列行動分割の研究では、局所的な時系列窓内での自己注意(self-attention)を計算する時間的畳み込みネットワークと組み合わせるアプローチが採用されている。これらの手法は良好な結果を示しているものの、動画全体の文脈を捉える能力に限界があるため、性能が制約されている。本研究では、トランスフォーマーに基づくモデルを導入し、スパースな注意機構を用いて動画全体の文脈を捉えることにより、時系列行動分割に必要な長期的時系列文脈の量を明らかにすることを目的とする。我々は、50Salads、Breakfast、Assembly101の3つの時系列行動分割データセットにおいて、最新の最先端手法と本モデルを比較した。実験の結果、時系列行動分割の最高性能を達成するためには、動画の完全な文脈をモデル化することが不可欠であることが示された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
アクションセグメンテーションに必要な時間的長期文脈の量はどれほどか? | 記事 | HyperAI超神経