HyperAIHyperAI

Command Palette

Search for a command to run...

大规模数据助模型掌握人类视觉核心技能:轮廓整合

人类视觉系统的独特能力让其在多种情况下都能精准识别物体,尤其是在面对被破坏或部分隐藏的物象时,其表现依然优秀。而现有的深度学习模型在处理未曾见过的新输入分布时,却常常表现出较差的泛化能力。为了更细致地探究这一问题,我们设计了一系列实验,专门评估模型在轮廓整合能力上的具体表现,这是人类视觉中的一项重要特性。 在实验中,我们通过控制物体的碎片化程度来测试识别能力,发现即便物体轮廓残缺不全,50名参与测试的人类受试者仍然能够保持极高的识别准确率。然而,大多数测试的超过千个深度学习模型对于物体轮廓的变化极为敏感,大部分时候它们的表现仅比随机猜测略好一些。这一差距在一定程度上得以弥补,但仅当模型接受过海量数据(大约50亿规模的数据集)的训练后。 特别值得注意的是,人类在物体识别上展示了一种整合的倾向性,即更偏向于通过物体上具有方向性的小部分来识别整个物体,而不是那些无特定方向或完全随机分布的部分。这项研究表明,不仅拥有同样特性倾向的模型在相应测试中的表现优于其他模型,且随着训练数据量的扩大,这种整合特性也会在模型内部逐渐增强。除此之外,专门训练以提高轮廓整合能力的模型,显示出更强的对形状信息的依赖。 总而言之,本研究指出,轮廓整合能力对视觉系统识别物体至关重要,它是支持高性能物体识别的关键因素之一。这一能力在深度学习模型中似乎需要大量训练数据的支持才能达到与人类相媲美的水平,提示研究人员未来的工作应更加重视数据质量及其对改善AI泛化能力的影响。与此同时,这些发现也加深了我们对人类自身视觉机制的理解,或许能够为开发更加先进的人工智能视觉系统提供新的思路。

相关链接

大规模数据助模型掌握人类视觉核心技能:轮廓整合 | 热门资讯 | HyperAI超神经