Wiki
Wir haben Hunderte von verwandten Einträgen zusammengestellt, um Ihnen zu helfen, "künstliche Intelligenz" zu verstehen
Der Hauptzweck des UDK-VQA-Frameworks besteht darin, vorhandene Large Scale Vision-Language Models (LVLMs) zu verbessern, damit diese Visual Question Answering (VQA) mit modernstem Wissen handhaben können.
Das SearchLVLMs-Framework kann die Leistung von LVLMs bei der Beantwortung von Fragen, die modernstes Wissen erfordern, erheblich verbessern.
Das LLMxMapReduce-Framework durchbricht die Speicherbeschränkungen großer Modelle und erreicht theoretisch die Verarbeitungskapazität eines Kontexts „unendlicher Länge“.
AdaCache ist eine von Meta im Jahr 2024 vorgeschlagene Technologie zur Beschleunigung der KI-Videogenerierung. Sein Kern ist der adaptive Caching-Mechanismus. Die zugehörigen Ergebnisse des Papiers sind „Adaptives Caching für eine schnellere Videogenerierung mit […]
Im Jahr 2024 schlug die Carnegie Mellon University (CMU) eine neue Black-Box-Optimierungsstrategie vor, die natürliche Sprachhinweise automatisch durch ein großes Sprachmodell anpasst, um die Leistung visueller Sprachmodelle (VLMs) in mehreren nachgelagerten Aufgaben wie Textdiagrammen und visueller Erkennung zu optimieren. Dieser Ansatz erfordert nicht nur keine Berührung des Modells […]
DexMimicGen ist in der Lage, aus einer kleinen Anzahl menschlicher Demonstrationen große Mengen an Roboter-Trainingsdaten zu generieren.
MIA-DPO (Multi-Image Augmented Direct Preference Optimization) ist eine Methode zur erweiterten Präferenzausrichtung mehrerer Bilder für große visuelle Sprachmodelle (LVLMs), die gemeinsam von der Shanghai Jiao Tong University und der Shanghai Renmin University entwickelt wurde.
Das Mel-Frequenz-Cepstrum ist eine weit verbreitete Technik im Bereich der Tonverarbeitung, insbesondere bei der Spracherkennung und Sprecheridentifikation.
Der Dijkstra-Algorithmus ist ein klassischer Algorithmus zum Finden des kürzesten Pfads von einer einzelnen Quelle in einem Diagramm.
Die WISE-Technologie zielt darauf ab, Halluzinationsphänomene in großen Sprachmodellen zu bekämpfen und die Fähigkeiten des Modells zur Bearbeitung des Wissensgedächtnisses zu verbessern.
DuoAttention optimiert Speicher- und Rechenressourcen durch die Anwendung eines vollständigen KV-Cache für Abrufheader und eines leichten KV-Cache mit fester Länge für Streaming-Header.
Anstatt eine Eins-zu-eins-Entsprechung zu realen Objekten anzustreben, konzentrieren sich digitale Cousins auf ähnliche geometrische und semantische Eigenschaften und generieren so praxisnahe Trainingsdaten zu geringeren Kosten.
DAPE steht für Data-Adaptive Positional Encoding, eine neue Methode zur Positionskodierung, die von Zheng Chuanyang und anderen von der Chinesischen Universität Hongkong vorgeschlagen wurde. Zum Forschungsteam gehören auch Forscher der National University of Singapore, des Noah Lab, der University of Hong Kong und der Hong Kong Baptist University. […]
SparseLLM ist ein neues globales Pruning-Framework, das von Forschern der Emory University und des Argonne National Laboratory im Jahr 2024 vorgeschlagen wurde. Das zugehörige Papier trägt den Titel „SparseLLM: Towards Global Pruning of Pre-trai […]“.
Diff Transformer berechnet zwei unabhängige Softmax-Aufmerksamkeitskarten und ermittelt dann aus der Differenz den endgültigen Aufmerksamkeitswert. Mit dieser Methode können Aufmerksamkeitsstörungen wirksam beseitigt werden und das Modell kann dazu veranlasst werden, den relevantesten Teilen der Eingabe mehr Aufmerksamkeit zu schenken.
UNA steht für Unified Alignment Framework, ein neues Ausrichtungsframework, das von einem Forschungsteam von Salesforce und der Universität Xiamen vorgeschlagen wurde. Das zugehörige Dokument trägt den Titel „UNA: Unifying Alignments of […]
Swarm ist ein experimentelles Multi-Agenten-Framework, das 2024 von OpenAI entwickelt wurde und die Konstruktion, Orchestrierung und Bereitstellung von Multi-Agenten-Systemen vereinfachen soll. Swarm konzentriert sich darauf, die Zusammenarbeit und Ausführung von Agenten leichtgewichtig, hochgradig kontrollierbar und einfach zu testen zu machen. Der Kern von Swarm[…]
Michelangelo ist eine von DeepMind-Forschern im Jahr 2024 vorgeschlagene Methode zur Bewertung der Denkfähigkeit großer Sprachmodelle in langen Textkontexten. Dies geschieht durch ein Framework namens Latent Structure Queries (LSQ) […]
Das Halteproblem ist ein wichtiges Problem in der Theorie der Berechenbarkeit in Logik und Mathematik. Es wurde 1936 vom britischen Mathematiker Alan Turing vorgeschlagen. Das relevante Papier ist Turings berühmtes Papier „On Computable Numbers […]“.
Wenn das Modell während des Trainings beginnt, Daten zu generieren, die weit von der tatsächlichen Datenverteilung abweichen, sinkt die Leistung des Modells drastisch, was letztendlich dazu führt, dass die Modellausgabe bedeutungslos wird.
Das Hopfield-Netzwerk ist ein rekurrentes neuronales Netzwerk, das hauptsächlich für Probleme wie assoziatives Gedächtnis und Mustererkennung verwendet wird.
Mit der Reduzierung von Belohnungsfehlern ist das Problem beim bestärkenden Lernen (RL) gemeint, das dadurch entsteht, dass die Belohnungsfunktion nicht vollständig mit dem wahren Ziel des Agenten übereinstimmt.
Das sequentielle Empfehlungssystem ist ein wichtiger Typ von Empfehlungssystem, dessen Hauptaufgabe darin besteht, das nächste Verhalten des Benutzers basierend auf der historischen Verhaltenssequenz des Benutzers vorherzusagen.
R-MFDN verbessert die Empfindlichkeit des Modells gegenüber gefälschten Inhalten durch eine kreuzmodale kontrastive Lernverlustfunktion und eine identitätsgesteuerte kontrastive Lernverlustfunktion.