SCP: Weiche bedingte Prompt-Lernung für die Aktionserkennung in Luftbild-Videos

Wir stellen einen neuen Lernansatz vor, namens Soft Conditional Prompt Learning (SCP), der die Stärken des Prompt-Lernens für die Aktionserkennung in Luftbild-Videos nutzt. Unser Ansatz ist darauf ausgelegt, die Aktion jedes Agente vorherzusagen, indem die Modelle dazu angeleitet werden, sich auf die Beschreibungen oder Anweisungen zu konzentrieren, die mit Aktionen in den Eingabevideos im Kontext von Luft- oder Robotervisualperzeption verknüpft sind. Unsere Formulierung unterstützt verschiedene Arten von Prompts, darunter lernbare Prompts, ergänzende visuelle Informationen sowie große Vision-Modelle, um die Erkennungsleistung zu verbessern. Wir präsentieren eine weiche bedingte Prompt-Methode, die lernt, dynamisch Prompts aus einer Pool von Prompt-Experten unter verschiedenen Videoeingaben zu generieren. Durch die gemeinsame Nutzung derselben Zielsetzung mit der Aufgabe kann unser vorgeschlagener SCP-Ansatz Prompts optimieren, die die Vorhersagen des Modells leiten, während gleichzeitig eingegebungsunabhängige (Pool aus Prompt-Experten) und eingegebungsabhängige (datenabhängige) Prompt-Wissensinhalte explizit gelernt werden. In der Praxis beobachten wir eine Genauigkeitssteigerung um 3,17–10,2 % auf den Luftbild-Videodatenbanken (Okutama, NECDrone), die Szenen mit Einzel- und Mehragenten-Aktionen enthalten. Wir evaluieren unseren Ansatz zudem an Bodenkamervideos, um Wirksamkeit und Generalisierbarkeit zu überprüfen, und erreichen eine Verbesserung von 1,0–3,6 % auf der Datensammlung SSV2. Zudem integrieren wir unsere Methode in ROS2.