EgoThink 第一人称视角下视觉问答基准数据集

EgoThink 是由清华大学提出的一个基于第一人称视角的视觉问答基准数据集。该数据集包含 700 张图像,涵盖了 6 个核心能力,细分为 12 个维度。 EgoThink 的图像来源于 Ego4D 第一人称视频数据集的采样图片,为了确保数据的多样性,每个视频最多只采样 2 张图片。
在数据集构建过程中,只选择了质量较高且能够清晰展现第一人称视角思维的图片。数据集采用人工标注,每个维度至少包含 50 个详细标注的问答问题,这些问题来源于多个第一人称视角的真实场景。 EgoThink 的应用领域广泛,特别是在评估和提升 VLMs 在第一人称视角任务中的性能,为未来的具身人工智能和机器人研究提供了宝贵的资源。
EgoThink.torrent
做种 1正在下载 1已完成 62总下载次数 47