11日前

シーケンス to シーケンス翻訳を用いた統一的完全監督およびタイムスタンプ監督型時系列アクションセグメンテーション

Nadine Behrmann, S. Alireza Golestaneh, Zico Kolter, Juergen Gall, Mehdi Noroozi
シーケンス to シーケンス翻訳を用いた統一的完全監督およびタイムスタンプ監督型時系列アクションセグメンテーション
要約

本稿では、完全かつタイムスタンプ監督下におけるシーケンスtoシーケンス(seq2seq)翻訳の枠組みを用いた動画行動セグメンテーションの統一的なアプローチを提案する。現在の最先端のフレーム単位予測手法とは異なり、本研究では行動セグメンテーションをseq2seq翻訳問題として捉え、動画フレームのシーケンスを行動セグメントのシーケンスに変換するというアプローチを採用する。提案手法は、標準的なTransformerベースのseq2seq翻訳モデルに対して、長大な入力シーケンス(動画フレーム)と短い出力シーケンス(行動セグメント)の不均衡、および比較的少ないデータ量という課題に対処するための複数の修正と補助損失関数を導入している。特に、エンコーダに対してフレーム単位の損失を用いた補助監督信号を導入し、行動持続時間のimplicitな予測を実現するための独立したアライメントデコーダを提案する。さらに、擬似セグメンテーションを生成するために、提案する制約付きk-medianアルゴリズムを用いてタイムスタンプ監督設定への拡張を実現している。提案フレームワークは、完全監督およびタイムスタンプ監督の両設定において一貫した性能を発揮し、多数のデータセットにおいて最先端の手法を上回るか、同等の性能を達成している。本研究のコードは、https://github.com/boschresearch/UVAST にて公開されている。

シーケンス to シーケンス翻訳を用いた統一的完全監督およびタイムスタンプ監督型時系列アクションセグメンテーション | 最新論文 | HyperAI超神経