
摘要
本文提出了“情境识别”(situation recognition)这一问题,即对图像所描绘的情境生成一个简洁而全面的摘要,涵盖以下三个方面:(1)主要活动(例如剪羊毛);(2)参与的主体、物体、物质及地点(例如:男子、剪刀、羊、羊毛和田野);尤为重要的是(3)这些参与者在活动中所扮演的角色(例如:男子正在剪羊毛,剪刀是他的工具,羊毛正从羊身上被剪下,且整个剪羊毛过程发生在田野中)。为定义大量可能的情境空间,本文采用由语言学家构建的语义框架词典 FrameNet,作为动词与角色的词汇资源。基于此,研究构建了一个大规模数据集,包含超过500种活动、1,700种角色、11,000种物体、125,000张图像以及200,000种独特情境。此外,本文还提出了结构化预测的基线方法,并验证了在以活动为中心的图像中,基于情境驱动的对象与活动预测性能,显著优于独立进行的对象识别与活动识别方法。