6ヶ月前

コンピュータビジョン

アプローチ／フレームワーク

コンピュータビジョン

Faegheh Sardari Armin Mustafa Philip J. B. Jackson Adrian Hilton

概要

本稿では、動画内の複雑な時系列的同時発生行動依存関係を、マルチスケールな時系列特徴を活用することで学習するTransformerベースのネットワーク「PAT」を提案する。従来の手法では、Transformerに組み込まれた自己注意（self-attention）機構が時系列的位置情報（temporal positional information）を失うという問題がある。この問題に対処するため、本研究では（i）自己注意機構に相対的位置符号化（relative positional encoding）を埋め込み、（ii）階層構造を採用しない新しい非階層的ネットワークを設計し、マルチスケールな時系列関係を有効に活用する。近年のTransformerベースのアプローチでは階層的なサブサンプリングプロセスが用いられるが、本研究では、こうした階層構造における自己注意機構と複数のサブサンプリング処理の組み合わせが位置情報の喪失を増大させると指摘する。提案手法の性能は、2つの挑戦的な密なマルチラベルベンチマークデータセット（CharadesおよびMultiTHUMOS）上で評価された結果、それぞれ1.1%および0.6%のmAP向上を達成し、各データセットにおいて新たなSOTA（state-of-the-art）となるmAP値26.5%および44.6%を実現した。さらに、提案ネットワークの各構成要素の寄与を検証するため、広範なアブレーションスタディを実施した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

コンピュータビジョン

アプローチ／フレームワーク

コンピュータビジョン

Faegheh Sardari Armin Mustafa Philip J. B. Jackson Adrian Hilton

概要

本稿では、動画内の複雑な時系列的同時発生行動依存関係を、マルチスケールな時系列特徴を活用することで学習するTransformerベースのネットワーク「PAT」を提案する。従来の手法では、Transformerに組み込まれた自己注意（self-attention）機構が時系列的位置情報（temporal positional information）を失うという問題がある。この問題に対処するため、本研究では（i）自己注意機構に相対的位置符号化（relative positional encoding）を埋め込み、（ii）階層構造を採用しない新しい非階層的ネットワークを設計し、マルチスケールな時系列関係を有効に活用する。近年のTransformerベースのアプローチでは階層的なサブサンプリングプロセスが用いられるが、本研究では、こうした階層構造における自己注意機構と複数のサブサンプリング処理の組み合わせが位置情報の喪失を増大させると指摘する。提案手法の性能は、2つの挑戦的な密なマルチラベルベンチマークデータセット（CharadesおよびMultiTHUMOS）上で評価された結果、それぞれ1.1%および0.6%のmAP向上を達成し、各データセットにおいて新たなSOTA（state-of-the-art）となるmAP値26.5%および44.6%を実現した。さらに、提案ネットワークの各構成要素の寄与を検証するため、広範なアブレーションスタディを実施した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

PAT：密集なマルチラベル行動検出のための位置情報認識Transformer | 記事 | HyperAI超神経