
要約
時刻句定位(Temporal Sentence Grounding)は、言語的な説明に関連する瞬間を特定することを目指しています。最近、DETRのような手法が、対象の瞬間の中心と長さを予測することで著しい進歩を遂げました。しかし、瞬間の中心位置に固有の曖昧性により、中心位置のずれという問題が生じており、これによって予測精度が低下しています。この問題を解決するために、我々は新たな境界指向型瞬間表現(Boundary-Oriented Moment Formulation)を提案します。我々のアプローチでは、モデルは正確な中心位置を見つける必要がなくなり、代わりにその区間に含まれる任意のアンカーポイントを予測すれば十分です。その後、境界は直接推定されます。このアイデアに基づいて、我々は双方向デコーディングプロセスを持つ境界合わせ型瞬間検出トランスフォーマー(Boundary-Aligned Moment Detection Transformer)を設計しました。具体的には、グローバル注意と境界に焦点を当てた注意を使用して並列パスでアンカーポイントと境界を洗練します。この分離された設計により、モデルは望ましい領域に集中でき、瞬間の予測精度が向上します。さらに、我々は品質に基づくランキング手法を提案し、高精度な局所化を持つ提案が不完全なものよりも優先されるようにしています。3つのベンチマークでの実験結果から、提案手法の有効性が確認されました。コードは以下のURLから入手可能です: https://github.com/Pilhyeon/BAM-DETR.