時系列文定位
Temporal Sentence Grounding (TSG) は、コンピュータビジョンの分野におけるサブタスクで、与えられた自然言語のクエリを用いて、トリミングされていない動画内の特定の瞬間を特定することを目指しています。このタスクでは、弱い教師あり(ビデオ全体のアクションカテゴリのセット)、半弱教師あり(ビデオ全体のアクションカテゴリのセットといくつかのタイムスタンプ付きアクション注釈)、そして完全教師あり(トリミングされていないビデオ内のすべてのアクションカテゴリと時間間隔が注釈されている)といった異なるレベルの教師情報を利用し、位置特定の精度と汎化能力を向上させます。TSG は、動画検索、コンテンツ理解、および人間とコンピュータの相互作用において重要な応用価値を持っています。