11日前

あなたが見るものこそあなたが読むものか?――テキスト-画像整合性評価の向上

Michal Yarom, Yonatan Bitton, Soravit Changpinyo, Roee Aharoni, Jonathan Herzig, Oran Lang, Eran Ofek, Idan Szpektor
あなたが見るものこそあなたが読むものか?――テキスト-画像整合性評価の向上
要約

テキストと対応する画像が意味的に整合しているかどうかを自動的に判断することは、視覚言語モデルにとって重要な課題であり、生成系のテキストから画像への生成(text-to-image)および画像からテキストへの生成(image-to-text)タスクにおいて広範な応用を持つ。本研究では、自動的なテキスト-画像整合性評価手法の検討を行う。まず、テキストから画像への生成と画像からテキストへの生成という両方のタスクにまたがる複数のデータセットを統合し、各テキスト-画像ペアが意味的に整合しているかについて人間の判断を付与した包括的な評価データセット「SeeTRUE」を提案する。次に、整合性を判定するための2つの自動化手法を提示する。1つ目は質問生成(question generation)と視覚的質問応答(visual question answering: VQA)モデルを組み合わせたパイプライン方式であり、2つ目はマルチモーダル事前学習モデルを微調整(fine-tuning)して、エンドツーエンドの分類アプローチを採用する方法である。これらの手法は、さまざまなテキスト-画像整合性タスクにおいて従来手法を上回り、複雑な構成や非自然な画像を含む困難なケースにおいても顕著な性能向上を達成している。最後に、本手法が画像とテキスト間の特定の整合性のずれ(misalignment)を局所化できることを示し、テキストから画像への生成タスクにおける候補画像の自動再順序付け(re-ranking)にどのように応用できるかも提示する。