ProCQA 커뮤니티 기반 프로그래밍 질의응답 데이터세트
ProCQA는 베이항대학교에서 만든 대규모 프로그래밍 질의응답 데이터 세트로, 약 500만 개의 질의응답 쌍을 포함하고 있습니다.Python, Java, JavaScript 등 11개의 다양한 프로그래밍 언어를 다룹니다.이러한 질문과 답변에는 알고리즘, 프레임워크, 라이브러리 사용 등 여러 지식 영역이 포함됩니다. 이 데이터는 StackOverflow 커뮤니티에서 나왔습니다. 연구자들은 크롤러 기술을 통해 데이터를 얻고, 너무 짧거나 긴 질문과 답변을 필터링하고 질문자가 수락한 답변만 유지하는 등 엄격한 규칙 필터링 전략을 채택하여 데이터의 품질과 공정성을 보장합니다. ProCQA의 질문-답변 쌍은 자연스럽게 구성된 혼합 모달리티입니다. 즉, 텍스트와 코드가 질문-답변 필드에 얽혀 있어 모델에 대한 자연스러운 감독 신호를 제공하고 두 모달리티를 정렬하는 데 도움이 됩니다. 이 데이터 세트는 평가 벤치마크와 사전 학습 코퍼스로 널리 활용될 수 있으며, 코드 검색과 질의응답 작업을 위한 중요한 리소스를 제공합니다.
ProCQA.torrent
시딩 1다운로드 중 1완료됨 130총 다운로드 횟수 226