HyperAI超神経

中国語-LiPSマルチモーダル音声認識データセット

ダウンロードヘルプ

Chinese-LiPSは、2025年に知遠研究院と南開大学が共同で発表したマルチモーダル音声認識データセットです。関連論文は「Chinese-LiPS:リップリーディングとプレゼンテーションスライドを用いた中国語視聴覚音声認識データセット」です。「リップリーディング情報+スライド意味情報」を組み合わせた初の中国語マルチモーダル音声認識データセットであるChinese-LiPSは、中国語解説、科学普及、教育、知識発信といった複雑な文脈を対象としており、中国語マルチモーダル音声認識技術の発展を促進することに尽力しています。

データセットの機能:

  • データサイズが大きい:Chinese-LiPSは総時間約100時間で、207人のプロ話者によって録音された36,208個の高品質の音声クリップが含まれており、優れた代表性と多様性を備えています。
  • 幅広いトピックをカバー: 内容は、科学技術、健康とウェルネス、文化と歴史、観光と探検、自動車産業、スポーツイベントなど、9つの人気分野を網羅しています。テーマは均等に分散されており、実際の教育と説明の文脈における表現特性と用語密度が十分に反映されています。
  • 高品質なスライドショー制作:分野の専門家がコンテンツを設計し、注釈付けにも参加することで、スライドのテキストと画像情報の正確性と専門性を確保しています。PPTコンテンツは明確に構造化され、美しくデザインされており、単なるテキストの羅列ではなく、豊富な画像と視覚的な意味情報が含まれています。
  • 高品質のビデオ録画:ビデオはプロのスピーカーによって静かな環境で高解像度の画像で記録され、リップリーディングビデオ(720P)とスライドビデオ(1080P)の2つのモードをカバーし、スピーチと唇の動きの正確な調整を保証し、一貫した信頼性の高いデータ品質を保証します。
データ配信