2 个月前

利用测试无关的长尾识别中的层次标签分布变化

Zhiyong Yang; Qianqian Xu; Zitai Wang; Sicong Li; Boyu Han; Shilong Bao; Xiaochun Cao; Qingming Huang
利用测试无关的长尾识别中的层次标签分布变化
摘要

本文探讨了测试无关的长尾识别问题,这是一个具有挑战性的长尾任务,其中测试标签分布未知且可能任意不平衡。我们认为这些分布的变化可以分层次地分解为全局和局部两个层面。全局变化反映了广泛的多样性,而局部变化通常源于较为温和的变动,往往集中在某个特定的邻域内。传统方法主要采用专家混合(Mixture-of-Expert, MoE)策略,针对少数几个固定的测试标签分布,这些分布表现出显著的全局变化。然而,局部变化却被忽视了。为了解决这一问题,我们提出了一种新的MoE策略——$\mathsf{DirMixE}$,该策略将专家分配到标签分布的不同狄利克雷元分布(Dirichlet meta-distributions),每个元分布都针对局部变化的一个特定方面。此外,这些狄利克雷元分布之间的多样性也内在地捕捉到了全局变化。这种双层方法还导致了一个更加稳定的优化目标函数,使我们能够更好地采样不同的测试分布以量化性能结果的均值和方差。理论上,我们证明了所提出的优化目标通过基于方差的正则化增强了泛化能力。多个基准实验全面验证了$\mathsf{DirMixE}$的有效性。代码可在\url{https://github.com/scongl/DirMixE}获取。

利用测试无关的长尾识别中的层次标签分布变化 | 最新论文 | HyperAI超神经