Marktkapitalisierung: $2.8061T 3.110%
Volumen (24h): $102.5052B 40.440%
  • Marktkapitalisierung: $2.8061T 3.110%
  • Volumen (24h): $102.5052B 40.440%
  • Angst- und Gier-Index:
  • Marktkapitalisierung: $2.8061T 3.110%
Cryptos
Themen
Cryptospedia
Nachricht
CryptosTopics
Videos
Top News
Cryptos
Themen
Cryptospedia
Nachricht
CryptosTopics
Videos
bitcoin
bitcoin

$83486.942804 USD

0.51%

ethereum
ethereum

$1942.951501 USD

1.96%

tether
tether

$1.000040 USD

-0.01%

xrp
xrp

$2.311790 USD

1.03%

bnb
bnb

$615.076581 USD

-3.89%

solana
solana

$126.406699 USD

0.83%

usd-coin
usd-coin

$1.000150 USD

0.03%

cardano
cardano

$0.715061 USD

0.83%

dogecoin
dogecoin

$0.167881 USD

-0.10%

tron
tron

$0.229729 USD

2.10%

chainlink
chainlink

$14.028689 USD

-1.06%

unus-sed-leo
unus-sed-leo

$9.781092 USD

-0.41%

toncoin
toncoin

$3.586497 USD

1.25%

stellar
stellar

$0.277540 USD

2.47%

hedera
hedera

$0.188848 USD

0.32%

Nachrichtenartikel zu Kryptowährungen

Das Ersetzen von Teilen des Argumentationsprozesses durch latente diskrete Token verbessert das Argumentieren des Großsprachenmodells

Mar 20, 2025 at 02:44 am

LLMs haben signifikante Verbesserungen gezeigt, wenn sie explizit auf strukturierten Argumentationsspuren trainiert haben, sodass sie mathematische Gleichungen lösen, logische Schlussfolgerungen schließen und Multisep -Planungsaufgaben navigieren. Die zur Verarbeitung dieser langwierigen Argumentationsspuren erforderlichen Rechenressourcen sind jedoch erheblich. Diese Arbeit führt eine neuartige Technik ein, die diskrete latente Token in LLM -Argumentation integriert.

Das Ersetzen von Teilen des Argumentationsprozesses durch latente diskrete Token verbessert das Argumentieren des Großsprachenmodells

Large Language Models (LLMs) have shown remarkable improvements when explicitly trained on structured reasoning traces, enabling them to solve mathematical equations, infer logical conclusions, and perform multistep planning tasks. However, these models require significant computational resources to process lengthy reasoning traces. Researchers are actively exploring ways to enhance efficiency while maintaining the effectiveness of these models.

Große Sprachmodelle (LLMs) haben bemerkenswerte Verbesserungen gezeigt, wenn sie explizit auf strukturierten Argumentationsspuren trainiert haben, sodass sie mathematische Gleichungen lösen, logische Schlussfolgerungen schließen und mehrstufige Planungsaufgaben ausführen können. Diese Modelle erfordern jedoch erhebliche Rechenressourcen, um lange Argumentationsspuren zu verarbeiten. Forscher untersuchen aktiv Wege, um die Effizienz zu verbessern und gleichzeitig die Effektivität dieser Modelle aufrechtzuerhalten.

One of the primary challenges in LLM reasoning is the high computational cost associated with training and inference. When models process step-by-step reasoning traces in natural language, much of the text is used to maintain coherence rather than contribute to reasoning. This leads to inefficient memory usage and increased processing time. Current methods aim to mitigate this issue by abstracting reasoning steps into compressed representations without losing critical information. However, models that attempt to internalize reasoning traces through continuous latent space or multi-stage training often perform worse than those trained with full reasoning details.

Eine der Hauptherausforderungen im LLM -Denken sind die hohen Rechenkosten, die mit Training und Inferenz verbunden sind. Wenn Modelle Schritt-für-Schritt-Argumentationsspuren in der natürlichen Sprache verarbeiten, wird ein Großteil des Textes verwendet, um Kohärenz aufrechtzuerhalten, anstatt zum Denken beizutragen. Dies führt zu einer ineffizienten Speicherverwendung und einer höheren Verarbeitungszeit. Aktuelle Methoden zielen darauf ab, dieses Problem zu mildern, indem Argumentationsschritte in komprimierte Darstellungen abgestuft werden, ohne kritische Informationen zu verlieren. Modelle, die versuchen, die Argumentation durch kontinuierliche latente Raum oder ein mehrstufiges Training zu verinnerlichen, funktionieren jedoch häufig schlechter als diejenigen, die mit vollständigen Argumentationsdetails geschult sind.

Existing solutions have focused on reducing redundancy in reasoning traces by compressing intermediate steps. Some approaches use continuous latent representations, while others involve iterative reductions of reasoning sequences. However, these methods require complex training procedures and fail to maintain performance comparable to explicit textual reasoning. Researchers sought an alternative approach that reduces computational demands while preserving reasoning capabilities. To address this, they have introduced a method that replaces parts of the reasoning process with latent discrete tokens, achieving improved efficiency without sacrificing accuracy.

Bestehende Lösungen konzentrierten sich auf die Reduzierung der Redundanz bei den Argumentationsspuren durch Komprimieren von Zwischenschritten. Einige Ansätze verwenden kontinuierliche latente Darstellungen, während andere iterative Reduktionen von Argumentationssequenzen beinhalten. Diese Methoden erfordern jedoch komplexe Schulungsverfahren und behalten die Leistung nicht mit explizitem textuellem Denken vergleichbar. Die Forscher beantragten einen alternativen Ansatz, der die Rechenanforderungen reduziert und gleichzeitig die Argumentationsfähigkeiten bewahrt. Um dies zu beheben, haben sie eine Methode eingeführt, die Teile des Argumentationsprozesses durch latente diskrete Token ersetzt und eine verbesserte Effizienz erreicht, ohne die Genauigkeit zu beeinträchtigen.

A research team from Meta AI and UC Berkeley proposed a novel technique that integrates discrete latent tokens into LLM reasoning. They employed a vector-quantized variational autoencoder (VQ-VAE) to convert a portion of the stepwise reasoning process into compact representations. The method involves replacing early reasoning steps with latent abstractions while retaining later steps in textual form. This hybrid representation ensures the model maintains interpretability while reducing the token length of reasoning sequences. The key innovation is the randomized mixing of latent and text tokens, which enables the model to adapt seamlessly to new reasoning structures without extensive retraining.

Ein Forschungsteam von Meta AI und UC Berkeley schlug eine neuartige Technik vor, die diskrete latente Token in LLM -Argumentation integriert. Sie verwendeten einen vektor-quantisierten Variationsautoencoder (VQ-VAE), um einen Teil des schrittweisen Argumentationsprozesses in kompakte Darstellungen umzuwandeln. Die Methode beinhaltet das Ersetzen frühes Argumentationsschritts durch latente Abstraktionen, während spätere Schritte in Textform beibehalten werden. Diese hybride Darstellung stellt sicher, dass das Modell die Interpretierbarkeit beibehält und gleichzeitig die Token -Länge der Argumentationssequenzen verringert. Die Hauptinnovation ist die randomisierte Mischung von latenten und Text -Token, mit der das Modell ohne umfangreiche Umschulung nahtlos an neue Argumentationsstrukturen angepasst werden kann.

The researchers developed a training strategy incorporating latent tokens into LLM reasoning traces. During training, a controlled number of reasoning steps are replaced with their corresponding latent representations, ensuring that the model learns to interpret both abstracted and explicit reasoning structures. The randomization of latent token replacements allows adaptability across different problem types, improving the model’s generalization ability. Limiting the number of textual reasoning steps reduces input size, making LLMs more computationally efficient while maintaining reasoning performance.

Die Forscher entwickelten eine Trainingsstrategie, die latente Token in LLM -Argumentationsspuren einbezog. Während des Trainings wird eine kontrollierte Anzahl von Argumentationsschritten durch ihre entsprechenden latenten Darstellungen ersetzt, um sicherzustellen, dass das Modell lernt, sowohl abstrahierte als auch explizite Argumentationsstrukturen zu interpretieren. Die Randomisierung von latenten Token -Ersetzungen ermöglicht die Anpassungsfähigkeit über verschiedene Problemtypen hinweg und verbessert die Verallgemeinerungsfähigkeit des Modells. Durch die Begrenzung der Anzahl der Textinstallationsschritte wird die Eingangsgröße reduziert, wodurch LLMs rechnerisch effizienter werden und gleichzeitig die Argumentationsleistung beibehalten werden.

Furthermore, the researchers ensured that the extended vocabulary, including newly introduced latent tokens, could be seamlessly integrated into the model without requiring major modifications. The proposed method demonstrated significant performance improvements across various benchmarks. The approach outperformed traditional chain-of-thought (CoT) models when applied to mathematical reasoning tasks. On the Math dataset, it achieved a 4.2% improvement over previous best-performing methods. In the GSM8K benchmark, the approach yielded a 4.1% gain, while in the Fresh-Gaokao-Math-2023 dataset, it outperformed existing models by 13.3%.

Darüber hinaus stellten die Forscher sicher, dass das erweiterte Vokabular, einschließlich neu eingeführter latenter Token, nahtlos in das Modell integriert werden könnte, ohne dass wichtige Änderungen erforderlich sind. Die vorgeschlagene Methode zeigte signifikante Leistungsverbesserungen in verschiedenen Benchmarks. Der Ansatz übertraf die traditionelle Modelle (COT-Modelle (COT), wenn sie auf mathematische Argumentationsaufgaben angewendet wurden. Auf dem Mathematikdatensatz erzielte es eine Verbesserung von 4,2% gegenüber früheren Methoden mit den besten Leistung. In der GSM8K-Benchmark erzielte der Ansatz einen Gewinn von 4,1%, während im Frisch-Gaokao-Math-2023-Datensatz vorhandene Modelle um 13,3% übertroffen wurden.

The reduction in reasoning trace length was equally noteworthy, with an average decrease of 17%, which resulted in faster inference times and lower memory consumption.

Die Verringerung der Argumentationsspurlänge war mit einem durchschnittlichen Rückgang von 17%ebenso bemerkenswert, was zu schnelleren Inferenzzeiten und einem geringeren Speicherverbrauch führte.

Evaluations on logical reasoning datasets such as ProntoQA and ProsQA further validated the approach’s effectiveness, with accuracy improvements of 1.2% and 18.7%, respectively. The model achieved 100% accuracy on simpler reasoning tasks, demonstrating its capacity for efficient logical deduction.

Bewertungen zu logischen Argumentationsdatensätzen wie Prontoqa und Prosqa validierten die Wirksamkeit des Ansatzes mit Genauigkeitsverbesserungen von 1,2% bzw. 18,7%. Das Modell erreichte eine 100% ige Genauigkeit bei einfacheren Argumentationsaufgaben und demonstrierte seine Kapazität für einen effizienten logischen Abzug.

The introduction of latent tokens has provided a significant step forward in optimizing LLM reasoning without compromising accuracy. By reducing the dependence on full-text reasoning sequences and leveraging discrete latent representations, the researchers have developed an approach that maintains efficiency while improving model generalization. The hybrid structure ensures that essential reasoning components are preserved, offering a practical solution to the challenge of balancing interpretability and computational efficiency. As LLMs continue to evolve, such methods may pave the way for more resource-efficient artificial intelligence systems that retain high levels of reasoning capability.

Die Einführung von latenten Token hat einen signifikanten Schritt nach vorne bei der Optimierung der LLM -Argumentation ohne Kompromissgenauigkeit gemacht. Durch die Verringerung der Abhängigkeit von Abhängigkeiten mit Volltext-Argumentation und der Nutzung diskreter latenter Darstellungen haben die Forscher einen Ansatz entwickelt, der die Effizienz aufrechterhält und gleichzeitig die Modellverallgemeinerung verbessert. Die Hybridstruktur stellt sicher, dass wesentliche Argumentationskomponenten erhalten bleiben, was eine praktische Lösung für die Herausforderung des Ausgleichs der Interpretierbarkeit und der Recheneffizienz bietet. Während sich die LLM weiterentwickelt, können solche Methoden den Weg für ressourceneffizientere künstliche Intelligenzsysteme ebnen, die ein hohes Maß an Argumentationsfähigkeit beibehalten.

Haftungsausschluss:info@kdj.com

Die bereitgestellten Informationen stellen keine Handelsberatung dar. kdj.com übernimmt keine Verantwortung für Investitionen, die auf der Grundlage der in diesem Artikel bereitgestellten Informationen getätigt werden. Kryptowährungen sind sehr volatil und es wird dringend empfohlen, nach gründlicher Recherche mit Vorsicht zu investieren!

Wenn Sie glauben, dass der auf dieser Website verwendete Inhalt Ihr Urheberrecht verletzt, kontaktieren Sie uns bitte umgehend (info@kdj.com) und wir werden ihn umgehend löschen.

Weitere Artikel veröffentlicht am Mar 20, 2025