EgoThink: 1인칭 시각적 질문 답변 벤치마크 데이터 세트

EgoThink는 청화대학교에서 제안한 1인칭 관점 시각적 질의응답 벤치마크 데이터 세트입니다.이 데이터 세트에는 6가지 핵심 기능을 12개 차원으로 나누어 다루는 700개의 이미지가 포함되어 있습니다. EgoThink의 이미지는 Ego4D 1인칭 비디오 데이터 세트의 샘플링된 이미지에서 나왔습니다. 데이터의 다양성을 보장하기 위해 각 비디오에 대해 최대 2개의 이미지만 샘플링됩니다.
데이터 세트를 구축하는 과정에서는 1인칭 관점의 사고를 명확하게 보여줄 수 있는 고품질 이미지만 선택했습니다. 데이터 세트는 수동으로 주석이 달려 있으며, 각 차원에 대해 최소 50개의 자세한 주석이 달린 질의응답 질문이 포함되어 있습니다. 이러한 질문은 여러 1인칭 관점에서 본 실제 장면에서 나왔습니다. EgoThink는 광범위한 응용 분야를 가지고 있으며, 특히 1인칭 관점 작업에서 VLM의 성능을 평가하고 개선하는 데 활용되어 미래의 구체화된 인공 지능과 로봇 연구를 위한 귀중한 리소스를 제공합니다.
EgoThink.torrent
시딩 1다운로드 중 1완료됨 66총 다운로드 횟수 48