8 个月前

计算机视觉

多模态表征

计算机视觉

Li Li; Wei Ji; Yiming Wu; Mengze Li; You Qin; Lina Wei; Roger Zimmermann

摘要

全景场景图生成（Panoptic Scene Graph Generation, PSG）解析物体并预测它们之间的关系（谓词），以连接人类语言和视觉场景。然而，注释者的不同语言偏好以及谓词之间的语义重叠导致数据集中存在偏倚的谓词注释，即同一对象对的不同谓词。这种偏倚的谓词注释使得PSG模型在构建谓词间的清晰决策平面时遇到困难，极大地阻碍了PSG模型的实际应用。为了解决上述固有的偏倚问题，我们提出了一种名为ADTrans的新框架，该框架能够自适应地将偏倚的谓词注释转换为信息丰富且统一的注释。为了保证转换过程中的一致性和准确性，我们提出测量每个谓词类别的表示不变性，并学习具有不同强度的无偏谓词原型。同时，我们持续测量每个表示与其原型之间的分布变化，并不断筛选潜在的偏倚数据。最终，在无偏谓词-原型表示嵌入空间中，偏倚注释得以轻松识别。实验结果表明，ADTrans显著提升了基准模型的性能，达到了新的最先进水平，并在多个数据集上展示了出色的泛化能力和有效性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

多模态表征

计算机视觉

Li Li; Wei Ji; Yiming Wu; Mengze Li; You Qin; Lina Wei; Roger Zimmermann

摘要

全景场景图生成（Panoptic Scene Graph Generation, PSG）解析物体并预测它们之间的关系（谓词），以连接人类语言和视觉场景。然而，注释者的不同语言偏好以及谓词之间的语义重叠导致数据集中存在偏倚的谓词注释，即同一对象对的不同谓词。这种偏倚的谓词注释使得PSG模型在构建谓词间的清晰决策平面时遇到困难，极大地阻碍了PSG模型的实际应用。为了解决上述固有的偏倚问题，我们提出了一种名为ADTrans的新框架，该框架能够自适应地将偏倚的谓词注释转换为信息丰富且统一的注释。为了保证转换过程中的一致性和准确性，我们提出测量每个谓词类别的表示不变性，并学习具有不同强度的无偏谓词原型。同时，我们持续测量每个表示与其原型之间的分布变化，并不断筛选潜在的偏倚数据。最终，在无偏谓词-原型表示嵌入空间中，偏倚注释得以轻松识别。实验结果表明，ADTrans显著提升了基准模型的性能，达到了新的最先进水平，并在多个数据集上展示了出色的泛化能力和有效性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供