
摘要
人格特质的自动预测在多个实际场景中具有广泛应用,例如法医学、推荐系统以及个性化服务等领域。本文提出了一套解决方案框架,用于从视频中预测用户的人格特质。从用户视频中提取环境、面部及音频特征,并利用这些特征进行最终的人格特质预测。视觉与音频模态的融合采用两种不同方式:一是对各模态独立预测结果进行平均;二是多模态设置下对特征进行拼接。实验采用Chalearn-16竞赛发布的数据集对系统性能进行评估。实验结果表明,仅使用少量精选图像即可获得优于使用视频中全部图像的预测性能。
人格特质的自动预测在多个实际场景中具有广泛应用,例如法医学、推荐系统以及个性化服务等领域。本文提出了一套解决方案框架,用于从视频中预测用户的人格特质。从用户视频中提取环境、面部及音频特征,并利用这些特征进行最终的人格特质预测。视觉与音频模态的融合采用两种不同方式:一是对各模态独立预测结果进行平均;二是多模态设置下对特征进行拼接。实验采用Chalearn-16竞赛发布的数据集对系统性能进行评估。实验结果表明,仅使用少量精选图像即可获得优于使用视频中全部图像的预测性能。