17日前

RTIC:グラフ畳み込みネットワークを用いたテキストおよび画像構成のための残差学習

Minchul Shin, Yoonjae Cho, Byungsoo Ko, Geonmo Gu
RTIC:グラフ畳み込みネットワークを用いたテキストおよび画像構成のための残差学習
要約

本稿では、画像検索を目的とした画像とテキストの構成学習について検討する。クエリは、目的とする画像の変更を記述するテキストと、その変更を施す対象となる画像の組み合わせとして与えられる。この場合の目標は、テキストと画像の両モダリティに含まれる情報を統合することで、指定された変更条件を満たし、クエリ画像と類似するターゲット画像を効果的に検索することにある。この課題に対処するため、画像とテキストの構成タスクに特化した新しいアーキテクチャを提案し、この構造がテキスト条件のもとでソース画像とターゲット画像の相違点を効果的に符号化できることを示す。さらに、グラフ畳み込みネットワーク(GCN)に基づく新しい共同学習手法を導入し、既存のあらゆる構成手法に対して「プラグアンドプレイ」の形で適用可能な汎用性を備えている。我々の手法は、さまざまなベンチマークにおいて一貫して性能向上を達成し、最先端のスコアを記録した。また、訓練ハイパーパラメータの微小な設定が実験結果に誤解を招く可能性を避けるため、すべてのベースラインモデルを再現し、統一された訓練環境下でモデルを学習した。このアプローチにより、関係のない要素による望ましくない影響を低減し、画像-テキスト構成モジュールの本質的な能力を強調できると期待される。さらに、訓練環境に制約を設けずとも最先端の性能を達成していることから、ハイパーパラメータチューニングによる利点を考慮しても本手法の優位性が示唆される。コード(すべてのベースライン手法を含む)は、https://github.com/nashory/rtic-gcn-pytorch にて公開されている。

RTIC:グラフ畳み込みネットワークを用いたテキストおよび画像構成のための残差学習 | 最新論文 | HyperAI超神経