2 个月前

超越专业化:评估多语言大型语言模型在年龄和性别估计中的能力

Kuprashevich, Maksim ; Alekseenko, Grigorii ; Tolstykh, Irina
超越专业化:评估多语言大型语言模型在年龄和性别估计中的能力
摘要

多模态大语言模型(Multimodal Large Language Models, MLLMs)最近获得了极大的关注。强大的商业模型如ChatGPT-4V和Gemini,以及开源模型如LLaVA,本质上都是通用模型,被应用于解决各种任务,包括计算机视觉领域的任务。这些神经网络具备如此强大的通用知识和推理能力,以至于它们在未专门训练的任务上也表现出色。我们对迄今为止最强大的MLLMs——ShareGPT4V、ChatGPT和LLaVA-Next——在一项专门的年龄和性别估计任务中进行了比较,该任务使用了我们最先进的专用模型MiVOLO。此外,我们还更新了MiVOLO,并在本文中提供了详细的说明和新的评估指标。这一比较产生了一些有趣的结果和见解,揭示了参与模型的优势和劣势。进一步地,我们尝试了多种方法来微调ShareGPT4V模型以应对这一特定任务,旨在实现该挑战中的最先进水平。尽管这种模型在生产环境中并不实用,因为它相比专用模型MiVOLO而言成本极高,但在某些任务中(如数据标注)仍可能非常有用。