HyperAIHyperAI

Command Palette

Search for a command to run...

VLLMs は常識的な推論を通じて感情理解に更好的な文脈を提供する。

Alexandros Xenos Niki M. Foteinopoulou Ioanna Ntinou Ioannis Patras Georgios Tzimiropoulos

概要

コンテキストに基づく感情認識は、周囲のシーンから得られるコンテキストの手がかりを考慮しながら、個人の表面的な感情を識別することを指します。このタスクに対する従来のアプローチでは、明示的なシーンエンコーディングアーキテクチャの設計やキャプションなどの外部のシーン関連情報の組み込みが行われてきました。しかし、これらの方法はしばしば限られたコンテキスト情報を利用したり、複雑な学習パイプラインに依存したりする傾向があります。本研究では、ビジョンおよび大規模言語モデル(VLLM)の画期的な能力を活用し、学習過程に複雑さを追加せずに二段階アプローチでコンテキストに基づく感情分類を強化します。第一段階では、VLLMに対して視覚的コンテキストに関連した被写体の表面的な感情について自然言語で説明を生成するように指示します。第二段階では、これらの説明がコンテキスト情報として使用され、画像入力とともに、テキストと視覚特徴を融合して最終的な分類タスクを行うトランスフォーマーベースのアーキテクチャを学習させます。実験結果は、テキストと画像特徴量が補完的な情報を有しており、当該融合アーキテクチャが複雑な学習方法を使用せずに個々のモダリティよりも著しく優れた性能を発揮することを示しています。当方針はEMOTIC, CAER-S, およびBoLDという3つの異なるデータセットで評価され、これら全てのデータセットと指標においてより複雑な手法と比較して最先端または同等の精度を達成しました。コードはGitHub上で公開される予定です: https://github.com/NickyFot/EmoCommonSense.git


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています