HyperAIHyperAI

Command Palette

Search for a command to run...

順序認識行動セグメンテーション:非監督フレーム-セグメントアライメントを用いて

Quoc-Huy Tran* Ahmed Mehmood* Muhammad Ahmed Muhammad Naufil Anas Zafar Andrey Konin M. Zeeshan Zia

概要

本論文では、フレームレベルの手がかりだけでなくセグメントレベルの手がかりも活用する非監督トランスフォーマーベースの時系列活動分割フレームワークを提案します。これは、従来の手法がしばしばフレームレベルの情報のみに依存することとは対照的です。当方針は、トランスフォーマーエンコーダを用いてフレームごとの行動クラスを推定するフレームレベル予測モジュールから始まります。このモジュールは、時間最適輸送(temporal optimal transport)を通じて非監督的に訓練されます。セグメントレベルの情報を活用するために、セグメントレベル予測モジュールとフレーム-セグメントアライメントモジュールを利用します。前者には、ビデオ転写を推定するためのトランスフォーマーデコーダが含まれており、後者はフレームレベル特徴量とセグメントレベル特徴量をマッチングし、順列に注意を払った分割結果を得ます。さらに、時間最適輸送から着想を得て、上記モジュールの非監督学習に使用する単純かつ効果的な疑似ラベルを導入しました。4つの公開データセット(50 Salads, YouTube Instructions, Breakfast, Desktop Assembly)での実験結果は、当方針が非監督活動分割において従来の手法と同等かそれ以上の性能を達成していることを示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています