17日前

IRFL:比喩表現の画像認識

Ron Yosef, Yonatan Bitton, Dafna Shahaf
IRFL:比喩表現の画像認識
要約

隠喩、たとえ話、慣用句などの修辞表現は、人間のコミュニケーションにおいて不可欠な要素である。これらは多様な言語表現の場面に広く見られ、複雑で抽象的な概念を伝えることや感情を喚起することを可能にする。修辞表現はしばしば複数のモダリティ(例えばテキストと画像)を介して伝達されるため、マルチモーダルな修辞的言語の理解は、深遠な視覚認識、言語処理、常識的知識、文化的背景を統合するという重要なAI課題である。本研究では、マルチモーダルな修辞的言語認識を目的とした「Image Recognition of Figurative Language(IRFL)」データセットを構築した。人間によるアノテーションと自ら開発した自動パイプラインを活用して、マルチモーダルデータセットを生成し、マルチモーダル修辞的言語理解のための新たなベンチマークとして2つの新規タスクを提案した。最先端の視覚・言語モデルを用いた実験の結果、最良のモデルでも22%の性能にとどまり、人間の性能(97%)と比べて著しく劣っていることが明らかになった。本研究では、データセット、ベンチマーク、および実装コードを公開することで、修辞的言語をより正確に理解できるモデルの開発を促進することを目的としている。

IRFL:比喩表現の画像認識 | 最新論文 | HyperAI超神経