MIntRec2.0 다중 모드 의도 인식 대화 데이터 세트
MIntRec2.0은 청화대학교 등이 제안한 대규모 다중 모드 다자간 벤치마크 데이터 세트로, 특히 대화에서 의도를 파악하고 의도하지 않은 콘텐츠를 감지하는 데 사용됩니다. 이전 MIntRec과 비교했을 때 MIntRec2.0의 데이터 볼륨은 15,000으로 늘어났으며, 30개의 의도 범주를 포괄하고 있으며, 텍스트, 비디오, 오디오와 같은 여러 모달리티를 포함하는 약 9.3K개의 의도 내 주석 문장과 5.7K개의 의도 외 주석 문장을 포함합니다.
이 데이터 세트는 1,245개의 대화로 구성되어 있으며, 각 대화는 평균 12개의 문장으로 구성되어 있습니다. 각 문장에는 의도가 표시되어 있으며, 각 대화에는 최소 두 명의 화자가 참여하고 모든 문장에는 화자의 신원이 표시됩니다. 또한, 오픈 월드 시나리오의 요구 사항을 충족하기 위해 MIntRec2.0은 알려진 의도 범주에 속하지 않는 문장을 식별하여 시스템의 견고성을 향상시키는 OOS 태그를 도입했습니다. 이 데이터 세트는 다중 모드 의도 이해와 관련된 연구를 촉진하고 보다 자연스러운 인간-컴퓨터 상호 작용을 달성하고 AGI로 이어지는 견고한 기반을 마련하는 것을 목표로 합니다.