19 天前
细粒度美食识别的专家网络:基于LLM的引导机制
{Petia Radeva, Bhalaji Nagarajan, Ignacio Sarasúa, Marc Bolaños, Imanol G. Estepa, Pablo Villacorta, Jesús M. Rodríguez-de-Vera}
摘要
在细粒度食物识别领域,基于子集学习的方法提供了一种战略性方案,通过将类别分组为子集来引导训练过程。本研究提出了一种新颖的方法,称为“细品细节”(Dining on Details,简称DoD),这是一种创新的专家学习框架,用于食物分类任务。该方法巧妙地利用大语言模型的能力,在数据集中构建类别子集。DoD的有效性源于ImageBind多模态嵌入空间的强大表现力,该空间能够捕捉不同类别之间的有意义相似性。通过端到端的多任务学习过程进行训练,该方法显著提升了细粒度食物识别任务的性能,尤其在高度相似的类别识别上表现出色。DoD的一个关键优势在于其通用兼容性,可无缝适配任何现有的分类架构。我们在多种食物数据集及不同骨干网络(包括卷积型与基于Transformer的架构)上对DoD进行了全面验证,结果表明其性能具有竞争力,相较基线模型实现了0.5%至1.61%的显著提升,尤其在Food-101数据集上达到了当前最优(state-of-the-art)水平。