19日前

詳細を味わう:LLMを活用したエキスパートネットワークによる細粒度食品認識

{Petia Radeva, Bhalaji Nagarajan, Ignacio Sarasúa, Marc Bolaños, Imanol G. Estepa, Pablo Villacorta, Jesús M. Rodríguez-de-Vera}
要約

細粒度食品認識の分野において、サブセット学習に基づく手法は、クラスをサブセットに分類することで学習プロセスを導く戦略的なアプローチを提供する。本研究では、食品分類のための革新的なエキスパート学習フレームワークとして、「Dining on Details(DoD)」と呼ばれる新しい手法を提案する。この手法は、大規模言語モデル(Large Language Models, LLMs)の力を巧みに活用し、データセット内のクラスをサブセットとして構築する点が特徴である。DoDの有効性は、ImageBindのマルチモーダル埋め込み空間の堅牢性に根ざしており、異なるカテゴリ間において意味のある類似性を識別可能である。この手法はエンド・トゥ・エンドのマルチタスク学習プロセスによって訓練され、特に類似度が高いクラスに対して優れた性能を発揮する。DoDの主な利点の一つは、汎用性の高さであり、既存のあらゆる分類アーキテクチャにスムーズに統合可能である。様々な食品データセットおよび畳み込み型・Transformerベースのバックボーンを用いた包括的な検証結果から、0.5%~1.61%の顕著な性能向上が確認され、競争力のある結果を示した。特に、Food-101データセットにおいては、最先端(state-of-the-art)の性能を達成した。