グループワイズクエリ専門化と品質意識的なマルチアサインメントを用いたトランスフォーマーに基づく視覚関係検出

Visual Relationship Detection (VRD) は最近、Transformer ベースのアーキテクチャによって大きな進歩を遂げています。しかし、Transformer ベースの VRD モデルの学習に用いられる従来のラベル割り当てには、2つの主要な制限が存在することが明らかになりました。このラベル割り当ては、真値 (Ground Truth: GT) を予測にマッピングするプロセスです。従来の割り当てでは、未特化のクエリが学習されます。これは、各クエリがすべての関係を検出することが期待されるため、特定の関係に特化することが困難になるからです。さらに、GT が単一の予測のみに割り当てられるため、近似的に正しいまたは完全に正しい予測も関係なしとみなされ抑制されてしまいます。これらの問題を解決するために、我々は Groupwise Query Specialization と Quality-Aware Multi-Assignment (SpeaQ) を提案します。Groupwise Query Specialization は、クエリと関係を互いに排他的なグループに分割し、特定のクエリグループ内のクエリを対応する関係グループ内の関係のみに向けることで特化したクエリを学習します。Quality-Aware Multi-Assignment は、主題 (subject)、目的物 (object)、および中間の関係において GT に著しく近い複数の予測に対して GT を割り当てることで学習をさらに促進します。実験結果と分析により、SpeaQ は効果的に特化したクエリを学習し、モデルの能力をよりよく活用することで複数の VRD モデルとベンチマークにおいて追加的な推論コストなしで一貫した性能向上を達成していることが示されました。コードは https://github.com/mlvlab/SpeaQ で利用可能です。