HyperAI超神经

How2QA 是一个视频+语言学习框架数据集。数据集将同一组选定的视频片段呈现给另一组 AMT 工作人员进行多选择问答标注。每位工作人员被分配一个视频片段，并被要求根据四个准备好的回答（一个正确答案和三个分散注意力答案）写一个问题。对工作人员隐藏视频叙述，以确保收集的问答对不受字幕的影响。数据集包含从 9035 个视频中选择的 22000 个 60 秒剪辑片段和 44007 个问答对。

How2QA 视频+语言数据集