研究显示:人类在理解动态社交场景上仍胜过人工智能
最近,一项由约翰霍普金斯大学科学家领导的研究发现,人类在描述和解读动态场景中的社会互动方面仍远胜于当前的人工智能模型。这项技能对于自动驾驶汽车、辅助机器人等技术来说至关重要,因为这些技术需要依赖AI系统来理解人类的行为、意图和目标,以安全地与人类互动。 研究的主要作者Leyla Isik,约翰霍普金斯大学认知科学助理教授,指出:“例如,自动驾驶汽车的AI就需要判断行人将要往哪个方向走,或者两个人是否在交谈而不是正准备过马路。任何希望与人类互动的AI都需要能够识别人们正在做什么。而我们的研究结果表明,这些系统目前还做不到这一点。” 博士生Kathy Garcia在Isik实验室进行了此研究,并将于4月24日在国际学习表示会议上展示研究成果。为了评估人类与AI在这方面的差异,研究人员让参与者观看三秒钟的视频片段并从一到五对其中重要的社交特征进行评分。视频片段包括人们相互互动、并行活动或独自活动的场景。 随后,研究人员让超过350个不同类型的AI模型——语言模型、视频模型和图像模型——预测人类如何评价这些视频及其大脑对观看视频的反应。当给大语言模型提供短暂的人类描述时,AI需要对其作出评估。结果显示,虽然大部分参与者对所有问题的看法一致,但无论AI模型的规模大小或训练数据如何,其表现均不如人类。视频模型无法准确描述视频中人的行为,即使图像模型得到一系列静态图像也难以可靠预测人是否在交流。相比之下,语言模型在预测人类行为方面表现较好,而视频模型则在预测大脑神经活动方面稍有优势。 这项研究凸显了AI在处理动态场景时存在的差距,特别是在社会互动的理解上。尽管AI在静态图像识别方面已经取得了显著进展,但研究人员发现,当面对动态场景和社会关系时,AI仍然存在盲区。这一问题可能源于AI神经网络的设计灵感来源于大脑处理静态图像的部分,而非处理动态社会场景的大脑区域。 “这不仅仅是识别一幅图像中的物体和面孔而已。我们已经在这方面取得了很大进展,但这只是第一步。真实世界是不断变化的,我们需要AI理解在一个场景中发生的故事。理解社交互动的关系、背景和动态是下一步挑战,而此研究表明,AI模型开发或许在这方面存在根本性缺失。”Garcia说。“人类处理场景的方式中有很多细微之处,但总体上来说,没有一个AI模型可以在所有方面匹配人类大脑和行为对场景的反应,就像它们在静态场景中所做的那样。”Isik补充道。 该研究的意义在于为AI的发展指出了一个新的方向,即如何设计出能够更准确地理解和处理动态社会场景的AI模型。这对于未来AI在日常生活中的应用具有重要意义,有助于减少因不理解人类行为而导致的安全隐患和技术瓶颈。 业内人士认为,这项研究揭示了当前AI技术在复杂动态环境中的一大短板,同时也为AI的研究者提供了宝贵的参考,帮助他们在未来的设计中更好地考虑社交互动的因素。约翰霍普金斯大学在认知科学研究领域一直处于领先位置,此次研究也再次证明了其在AI领域的前沿探索。
