
本論文では、中国の動画共有サイト「Bilibili」から収集したデータセットであるChinaOpenを紹介する。これは、オープンワールドにおけるマルチモーダル学習を目的としたものである。近年の最先端マルチモーダル学習ネットワークは、自動動画アノテーションやクロスモーダル動画検索において優れた性能を示しているが、その訓練および評価は主に英語テキストを伴うYouTube動画に基づいている。これに対して、中国語データにおける実効性についてはまだ検証が不十分である。新たな文脈におけるマルチモーダル学習の支援を目的として、本研究ではユーザーが生成したタイトルおよびタグと関連付けられた5万本のBilibili動画から構成される、ウェブリーアノテートされた学習データセット「ChinaOpen-50k」を構築した。低品質な動画を事前に除去するため、テキストベースおよびコンテンツベースの両方のデータクリーニングを実施している。多角的な評価を可能にするため、1,000本の動画からなる手動ラベル付きテストセット「ChinaOpen-1k」も構築した。各テスト動画には、手動で確認されたユーザーによるタイトルと、手動で作成されたキャプションが付随しており、さらに視覚的コンテンツに登場する物体・動作・シーンを手動でタグ付けしている。また、オリジナルのユーザータグについても手動での確認を行った。さらに、すべての中国語テキストを英語に翻訳したため、England語データで訓練されたモデルの評価にも本データセットは適している。本研究ではChinaOpenに加え、中国語動画キャプション生成のための「生成型ビデオからテキストへのトランスフォーマー(Generative Video-to-text Transformer: GVT)」を提案する。新データセット上で最先端の単一タスクおよびマルチタスクモデルを広範に評価した結果、多数の新しい知見および洞察が得られた。