HyperAIHyperAI
vor 15 Tagen

Zerlegung tiefer Metrik-Lernverluste für die Bild-Text-Retrieval

Hong Xuan, Xi Chen
Zerlegung tiefer Metrik-Lernverluste für die Bild-Text-Retrieval
Abstract

Visual-Semantic-Embedding (VSE) ist ein verbreiteter Ansatz für die Bild-Text-Abfrage, bei dem ein gemeinsamer Embedding-Raum zwischen Bild- und Sprachmodalitäten gelernt wird, in dem semantische Ähnlichkeiten erhalten bleiben. Die Triplet-Verlustfunktion mit Hard-Negative-Mining ist zur de-facto-Objektivierung vieler VSE-Methoden geworden. Inspiriert durch jüngste Fortschritte im Bereich des Deep Metric Learning (DML) im Bildbereich, die neue Verlustfunktionen hervorgebracht haben, die die Triplet-Verlustfunktion übertrifft, untersuchen wir in diesem Artikel erneut das Problem der Suche nach besseren Objektiven für VSE im Kontext der Bild-Text-Zuordnung. Obwohl einige Versuche unternommen wurden, Verlustfunktionen auf der Grundlage von Gradientenbewegungen zu entwerfen, sind die meisten DML-Verlustfunktionen empirisch im Embedding-Raum definiert. Anstatt diese Verlustfunktionen direkt anzuwenden – was zu suboptimalen Gradientenupdates der Modellparameter führen könnte – präsentieren wir in diesem Beitrag einen neuartigen Rahmen zur Gradienten-basierten Objektiv-Analyse, kurz \textit{GOAL}, um systematisch Kombinationen und Neugewichtungen von Gradienten bestehender DML-Funktionen zu analysieren. Mit Hilfe dieses Analyseframeworks leiten wir eine neue Familie von Objektiven im Gradientenraum ab, die verschiedene Gradientenkombinationen erforschen. Sollten die Gradienten nicht integrierbar zu einer gültigen Verlustfunktion sein, implementieren wir unsere vorgeschlagenen Objektive direkt im Gradientenraum, anstatt auf den Verlusten im Embedding-Raum zu operieren. Umfassende Experimente zeigen, dass unsere neuartigen Objektive die Leistung gegenüber Baselines konsequent in verschiedenen visuellen/Text-Features und Modellarchitekturen verbessern. Außerdem demonstrieren wir die Allgemeingültigkeit des GOAL-Frameworks, indem wir es auf andere Modelle mit Triplet-Familien-Verlusten erweitern, einschließlich vision-sprachlicher Modelle mit starken cross-modalen Interaktionen, und dabei state-of-the-art-Ergebnisse für die Bild-Text-Abfrageaufgaben auf COCO und Flick30K erzielen.

Zerlegung tiefer Metrik-Lernverluste für die Bild-Text-Retrieval | Neueste Forschungsarbeiten | HyperAI