2ヶ月前

MSVD-インドネシア:インドネシア語のマルチモーダル動画-テキストタスクのベンチマーク

Willy Fitra Hendria
MSVD-インドネシア:インドネシア語のマルチモーダル動画-テキストタスクのベンチマーク
要約

マルチモーダル学習における動画とテキストデータの取り扱いは、テキストから動画への検索、動画からテキストへの検索、および動画キャプショニングを含む様々な研究課題において、多くの研究者から注目を集めています。これらの困難な課題に対して多くのアルゴリズムが提案されていますが、それらの大部分は英語のデータセットで開発されています。インドネシア語は世界で最も話されている言語の一つであるにもかかわらず、インドネシア語文を使用したマルチモーダル動画-テキストに関する研究進展はまだ十分に探索されていません。これは、公開ベンチマークデータセットの不在が原因である可能性があります。この問題に対処するために、MSVDデータセットの英語文をインドネシア語文に翻訳し、最初の公開インドネシア動画-テキストデータセットを構築しました。当該データセットを使用して、英語動画-テキストデータセット向けに開発されたニューラルネットワークモデルを3つのタスク(テキストから動画への検索、動画からテキストへの検索、および動画キャプショニング)で訓練しました。最近のビデオ-テキストタスクに対するニューラルネットワークベースのアプローチでは、しばしば英語のビジョン-言語データセットで主に事前学習された特徴抽出器が利用されています。しかし、インドネシア語文での事前学習リソースが比較的限られているため、これらのアプローチが当該データセットに適用できるかどうかは疑問です。事前学習リソース不足を克服するため、英語データセットで事前学習された特徴抽出器を利用したクロスリンガル転移学習を適用し、その後当該モデルをインドネシア語データセットで微調整しました。実験結果は、このアプローチがすべての評価指標において3つのタスクの性能向上に寄与することを示しています。最後に、当該データセットを使用した将来の研究について議論し、インドネシア語マルチモーダルビデオ-テキストタスクに関するさらなる研究を促進します。私たちは当該データセットと実験結果がコミュニティにとって貴重な貢献となることを信じています。当該データセットはGitHub上で公開されています。

MSVD-インドネシア:インドネシア語のマルチモーダル動画-テキストタスクのベンチマーク | 最新論文 | HyperAI超神経