
要約
メディアピ・RGBを紹介します。これは、フランス手話(LSF)を対象とした新規データセットと、初めてのLSFからフランス語への機械翻訳モデルを含んでいます。86時間の動画を収録しており、翻訳付きのLSFコーパスとしては最大規模です。このコーパスは、聴覚障害を持つジャーナリストが制作したオリジナルのフランス手話コンテンツから構成されており、その手話に対応する書記体フランス語の字幕が付与されています。現在リリースされているメディアピ・RGBは、Ortolangコーパスリポジトリにて公開されており、学術研究目的での利用が可能です。テストセットと検証セットにはそれぞれ13時間および7時間の動画が含まれており、トレーニングセットには合計66時間の動画が収録されていますが、これは2024年12月まで段階的に公開される予定です。さらに、今回のリリースでは、トレーニング・検証・テストセットに含まれるすべての動画に対して、骨格キーポイント、手話の時系列セグメンテーション、空間時間的特徴量、および字幕が提供されています。また、評価目的として、名詞の推奨語彙も併せて提供しています。さらに、本コーパスを用いた初のLSFからフランス語への翻訳ベースラインの実験結果を提示し、この規模・質を誇る新時代のLSFデータセットがもたらす可能性を概観しています。最後に、この新しい動画・テキストデータセットが有する潜在的な技術的・言語学的応用についても提案いたします。