16日前

最大化と復元:拡張伝播と時系列再構成を用いたアクションセグメンテーション

{Sungho Jo, Sejoon Huh, Daekyum Kim, Junyong Park}
最大化と復元:拡張伝播と時系列再構成を用いたアクションセグメンテーション
要約

アクションセグメンテーションは、動画を異なるアクションのセグメントに分割することを目的としている。近年の研究では、長時間にわたる未トリムされた動画における長距離依存関係に対処することに注力しているが、モデルの複雑性が増すにつれて過剰なセグメンテーションや性能の飽和といった問題に直面している。本論文では、まずモデルのフレーム単位分類精度を最大化し、その後で過剰なセグメンテーション誤差を低減する「分割して打ち勝つ(divide-and-conquer)」戦略を用いて、これらの課題を解決する。この戦略は、情報の異なる拡張(dilation)を伝播することで精度を向上させる「拡張伝搬ネットワーク(Dilation Passing Network)」と、拡張伝搬ネットワークから得られる出力特徴を時系列的に符号化・復号することで過剰セグメンテーション誤差を低減する「時系列再構成ネットワーク(Temporal Reconstruction Network)」から構成される「拡張伝搬と再構成ネットワーク(Dilation Passing and Reconstruction Network)」によって実装される。さらに、過剰セグメンテーションをさらに抑制するための重み付き時系列平均二乗誤差損失関数を提案する。50Salads、GTEA、Breakfastの3つのデータセットにおける評価を通じて、既存の最先端モデルと比較して、本モデルが顕著な性能向上を達成していることを示した。

最大化と復元:拡張伝播と時系列再構成を用いたアクションセグメンテーション | 最新論文 | HyperAI超神経