LILE: Tief schauen, bevor anderswo gesucht wird -- Ein duales Aufmerksamkeitsnetzwerk mit Transformatoren für die kreuzmodale Informationsretrieval in histopathologischen Archiven

Das Volumen der verfügbaren Daten ist in vielen Anwendungen in den letzten Jahren dramatisch gewachsen. Zudem ist das Zeitalter von Netzwerken, die verschiedene Modalitäten getrennt nutzten, praktisch beendet. Daher ist es für viele Bereiche und Forschungsdisziplinen erforderlich, bidirektionale intermodale Datensuche zu ermöglichen, die die Verarbeitung dieser Daten unterstützt. Dies gilt insbesondere im medizinischen Bereich, da die Daten in einer Vielzahl von Formen vorliegen, darunter verschiedene Arten von Bildern und Berichten sowie molekulare Daten. Die meisten aktuellen Arbeiten wenden Kreuzaufmerksamkeit (cross attention) an, um die wesentlichen Elemente eines Bildes oder Textes im Verhältnis zu anderen Modalitäten hervorzuheben und sie zusammenzubringen. Allerdings betrachten diese Ansätze die Merkmale jeder Modalität in der Regel gleichwertig, unabhängig von ihrer Bedeutung innerhalb ihrer eigenen Modalität. In dieser Studie wird vorgeschlagen, Selbstaufmerksamkeit (self-attention) als zusätzlichen Verlustterm zu verwenden, um die interne Darstellung zu bereichern, die dem Modul der Kreuzaufmerksamkeit zur Verfügung gestellt wird. Diese Arbeit schlägt eine neuartige Architektur mit einem neuen Verlustterm vor, um die Darstellung von Bildern und Texten im gemeinsamen latenten Raum zu verbessern. Experimentelle Ergebnisse auf zwei Benchmark-Datensätzen, nämlich MS-COCO und ARCH, zeigen die Effektivität des vorgeschlagenen Ansatzes.