2ヶ月前

多タスク多モーダル自己監督学習による表情認識

Marah Halawa; Florian Blume; Pia Bideau; Martin Maier; Rasha Abdel Rahman; Olaf Hellwich
多タスク多モーダル自己監督学習による表情認識
要約

人間のコミュニケーションは多様なモーダルを用いるものであり、例えば対面でのやり取りでは聴覚信号(音声)と視覚信号(顔の動きや手のジェスチャー)が含まれます。したがって、機械学習に基づく表情認識システムを設計する際には、複数のモーダルを利用することが重要です。また、人間の表情を捉えたビデオデータの量が急速に増加していることを考慮すると、これらのシステムは高価なアノテーションを必要とせずに生のラベルなしビデオを利用すべきです。本研究では、野生環境で撮影されたビデオデータから表情認識を行うため、マルチタスク・マルチモーダル自己監督学習手法を採用しました。当モデルは以下の3つの自己監督目的関数を組み合わせています:第一に、同じビデオ内の異なるデータモーダルを表現空間において近づけるマルチモーダルコントラスティブ損失。第二に、入力データの意味的構造を表現空間で保つマルチモーダルクラスタリング損失。第三に、マルチモーダルデータ再構成損失です。私たちはこのマルチモーダル・マルチタスク自己監督学習手法について3つの表情認識ベンチマークで包括的な研究を行いました。そのために、異なる自己監督タスクの組み合わせによる学習性能を表情認識下流タスクで評価しました。当モデルConCluGenはCMU-MOSEIデータセットにおいていくつかのマルチモーダル自己監督および完全教師あり基線モデルを上回りました。一般的に私たちの結果は示しています:表情認識のような困難なタスクに対して、マルチモーダル自己監督タスクが大幅な性能向上をもたらすだけでなく、手動アノテーションが必要となる量も削減できるということです。私たちは事前学習済みモデルおよびソースコードを公開します。注:「ConCluGen」、「CMU-MOSEI」などの固有名詞はそのまま使用しています。「野生環境」(in-the-wild)は一般的に自然な状況や制御されていない環境を指し、「下流タスク」(downstream task)は事前学習後の特定の応用タスクや最終的な目的タスクを意味します。

多タスク多モーダル自己監督学習による表情認識 | 最新論文 | HyperAI超神経