6ヶ月前

マルチモーダル

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Ron Yosef Yonatan Bitton Dafna Shahaf

概要

隠喩、たとえ話、慣用句などの修辞表現は、人間のコミュニケーションにおいて不可欠な要素である。これらは多様な言語表現の場面に広く見られ、複雑で抽象的な概念を伝えることや感情を喚起することを可能にする。修辞表現はしばしば複数のモダリティ（例えばテキストと画像）を介して伝達されるため、マルチモーダルな修辞的言語の理解は、深遠な視覚認識、言語処理、常識的知識、文化的背景を統合するという重要なAI課題である。本研究では、マルチモーダルな修辞的言語認識を目的とした「Image Recognition of Figurative Language（IRFL）」データセットを構築した。人間によるアノテーションと自ら開発した自動パイプラインを活用して、マルチモーダルデータセットを生成し、マルチモーダル修辞的言語理解のための新たなベンチマークとして2つの新規タスクを提案した。最先端の視覚・言語モデルを用いた実験の結果、最良のモデルでも22％の性能にとどまり、人間の性能（97％）と比べて著しく劣っていることが明らかになった。本研究では、データセット、ベンチマーク、および実装コードを公開することで、修辞的言語をより正確に理解できるモデルの開発を促進することを目的としている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

マルチモーダル

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Ron Yosef Yonatan Bitton Dafna Shahaf

概要

隠喩、たとえ話、慣用句などの修辞表現は、人間のコミュニケーションにおいて不可欠な要素である。これらは多様な言語表現の場面に広く見られ、複雑で抽象的な概念を伝えることや感情を喚起することを可能にする。修辞表現はしばしば複数のモダリティ（例えばテキストと画像）を介して伝達されるため、マルチモーダルな修辞的言語の理解は、深遠な視覚認識、言語処理、常識的知識、文化的背景を統合するという重要なAI課題である。本研究では、マルチモーダルな修辞的言語認識を目的とした「Image Recognition of Figurative Language（IRFL）」データセットを構築した。人間によるアノテーションと自ら開発した自動パイプラインを活用して、マルチモーダルデータセットを生成し、マルチモーダル修辞的言語理解のための新たなベンチマークとして2つの新規タスクを提案した。最先端の視覚・言語モデルを用いた実験の結果、最良のモデルでも22％の性能にとどまり、人間の性能（97％）と比べて著しく劣っていることが明らかになった。本研究では、データセット、ベンチマーク、および実装コードを公開することで、修辞的言語をより正確に理解できるモデルの開発を促進することを目的としている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています