16日前

視覚および音声を用いたマルチモーダル機械翻訳

Umut Sulubacak, Ozan Caglayan, Stig-Arne Grönroos, Aku Rouhe, Desmond Elliott, Lucia Specia, Jörg Tiedemann
視覚および音声を用いたマルチモーダル機械翻訳
要約

マルチモーダル機械翻訳は、入力データに対する有用な代替的視点を含む可能性がある追加のモダリティから情報を抽出することを前提としている。この分野における代表的なタスクには、音声言語翻訳、画像誘導翻訳、動画誘導翻訳があり、それぞれ音声および視覚モダリティを活用している。これらのタスクは、音声認識、画像キャプション生成、動画キャプション生成といった単言語タスクと異なり、モデルが異なる言語で出力を生成しなければならないという点で特徴づけられる。本調査では、これらのタスクに向けた主要なデータリソースと、それらを中心に展開される評価キャンペーン、エンドツーエンドおよびパイプラインアプローチにおける最新技術、さらにパフォーマンス評価における課題について概観する。最後に、今後の研究における展望について論じる:より広範かつ挑戦的なデータセットの必要性、モデル性能に対するターゲット型評価の導入、および入力空間および出力空間の両方におけるマルチモーダル性の強化が挙げられる。

視覚および音声を用いたマルチモーダル機械翻訳 | 最新論文 | HyperAI超神経