
要約
長期行動の品質評価は、長時間の動画から行動の実行品質を評価するタスクであり、すなわち、長時間の動画から品質スコアを推定することを目的とする。直感的には、長期的な行動は、異なるスキルレベルを示す部分を含むことが多く、こうしたスキルのレベルを「パフォーマンスグレード」と呼ぶ。たとえば、同じ長期行動の中で技術的なハイライトとミスが共存することがある。したがって、最終的なスコアは、動画内で示されたさまざまなグレードの総合的な影響によって決定されるべきである。この潜在的な関係を解明するために、心理統計学におけるリッカート尺度(Likert scale)をヒントにした新たなリッカートスコアリング枠組みを提案する。この手法では、グレードを明示的に定量化し、動画から推定された各グレードに対する反応とその定量値を組み合わせることで最終的な品質スコアを生成する。直接的な回帰を行うのではなく、このアプローチにより、より柔軟かつ解釈可能なスコアリングを実現する。さらに、多様な可学習クエリを備えたTransformerデコーダアーキテクチャを用いて、各グレード固有の特徴を抽出し、それぞれのグレードに対する反応を推定に活用する。本モデルは「グレード分解型リッカートTransformer(Grade-decoupling Likert Transformer, GDLT)」と命名し、2つの長期行動品質評価データセットにおいて、既存の最先端手法を上回る性能を達成した。