该数据集是一个捕捉用户与操作人员之间的视听互动的视频数据集。操作人员扮演带有四个人格的角色,人格分别为 Poppy(快乐),Obadiah(阴郁),Spike(愤怒)和 Prudence(审慎)。视频以 25 fps(352 x 288 像素)的速率记录,视频片段被标注为几个状态,如一致、感兴趣、确定、专注和深思熟虑,并在 [-1,1] 范围内连续评分,其中 -1 表示最低评价即完全不专注,+1 表示最高评价即最专注。
在 Solid SAL 场景中使用 24 个录音会话,录音由用户和操作员两部分组成,每段录音通常有 4 个字符交互,共提供 95 个字符交互和 190 个视频片段。