HyperAIHyperAI

Command Palette

Search for a command to run...

BAM-DETR:用于视频中时间句子定位的边界对齐时刻检测 Transformer

Lee Pilhyeon ; Byun Hyeran

摘要

时间句子定位旨在根据语言描述定位相关的时刻。最近,类似DETR的方法通过预测目标时刻的中心和长度取得了显著进展。然而,由于时刻中心固有的模糊性导致的中心错位问题,这些方法的预测结果不够准确。为了解决这一问题,我们提出了一种新的边界导向时刻表示方法。在我们的框架中,模型不再需要找到精确的中心点,而是只需预测区间内的任意锚点,从该锚点直接估计边界即可。基于这一思想,我们设计了一种边界对齐的时刻检测 Transformer (Boundary-Aligned Moment Detection Transformer),并配备了双路径解码过程。具体而言,它分别使用全局注意力和边界聚焦注意力在并行路径中细化锚点和边界。这种独立设计使模型能够专注于期望区域,从而实现对时刻预测的精确优化。此外,我们还提出了一种基于质量的排序方法,确保高定位质量的提案优先于不完整的提案。我们在三个基准数据集上的实验验证了所提方法的有效性。代码可在https://github.com/Pilhyeon/BAM-DETR 获取。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供