|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Nachrichtenartikel zu Kryptowährungen
Überkleidete Transformatoren: Neuinterpretieren des Vokabulardesigns für effiziente und skalierbare Sprachmodelle
Jan 31, 2025 at 01:43 am
Die Tokenisierung spielt eine grundlegende Rolle bei der Leistung und Skalierbarkeit von Großsprachenmodellen (LLMs). Obwohl es sich um eine kritische Komponente handelt, bleibt ihr Einfluss auf das Modelltraining und die Effizienz unterbelastet. Während größere Vokabulare Sequenzen komprimieren und die Rechenkosten senken können, verbinden bestehende Ansätze Eingangs- und Ausgangsvokabulare miteinander, wodurch Kompromisse erzeugt werden, bei denen Skalierung größere Modelle zugute kommt, aber kleinere schädigen. In diesem Artikel wird ein Framework bezeichnet, das als übergefahrene Transformatoren bezeichnet wird und das Vokabular des Vokabulars durch Entkoppelung von Eingabe- und Ausgangs-Tokenisierung neu interpretiert und neue Wege für die Modelleffizienz und -leistung entschlossen.
Tokenization, a fundamental aspect of language models, has largely remained unexplored in terms of its influence on model training efficiency and performance. While increasing vocabulary size can reduce sequence length and computational costs, existing approaches tie input and output vocabularies together, creating trade-offs where scaling benefits larger models but harms smaller ones. To address this, researchers introduce Over-Tokenized Transformers, a framework that reimagines vocabulary design by decoupling input and output tokenization, unlocking new pathways for model efficiency and performance.
Die Tokenisierung, ein grundlegender Aspekt von Sprachmodellen, ist hinsichtlich des Einflusses auf die Effizienz und Leistung der Modelltraining und Leistung weitgehend unerforscht geblieben. Während die Erhöhung der Vokabulargröße die Sequenzlänge und die Rechenkosten reduzieren kann, verbinden bestehende Ansätze Eingangs- und Ausgangsvokabulare miteinander und schaffen Kompromisse, bei denen die Skalierung größeren Modellen zugute kommt, aber kleinere schädigen. Um dies zu beheben, stellen Forscher überrennende Transformatoren ein, ein Rahmen, das das Vokabular-Design durch Entkoppelung von Eingabe- und Ausgangs-Tokenisierung neu interpretiert und neue Wege für die Modelleffizienz und -leistung entsperren.
Traditional tokenization methods use identical vocabularies for both input processing and output prediction. While larger vocabularies allow models to process longer n-gram tokens (e.g., multi-character sequences), they force smaller models to handle overly granular output predictions, increasing the risk of underfitting. For instance, a 3-gram tokenizer reduces sequence length by 66% but requires predicting three characters jointly—a task manageable for large models but overwhelming for smaller ones. Previous work like multi-token prediction (MTP) attempted to address this by predicting future tokens in parallel, but these methods still entangled input/output granularity and struggled with smaller architectures.
Herkömmliche Tokenisierungsmethoden verwenden identische Vokabulare sowohl für die Eingangsverarbeitung als auch für die Ausgangsvorhersage. Während größere Vokabulare Modelle ermöglichen, längere N-Gramm-Token (z. B. Multi-Charakter-Sequenzen) zu verarbeiten, zwingen sie kleinere Modelle, um übermäßig körnige Ausgangsvorhersagen zu verarbeiten und das Risiko einer Unteranpassung zu erhöhen. Beispielsweise reduziert ein 3-Gramm-Tokenizer die Sequenzlänge um 66%, erfordert jedoch gemeinsam drei Zeichen-eine Aufgabe, die für große Modelle überschaubar ist, aber für kleinere überwältigend ist. Frühere Arbeiten wie Multi-Tooken Prediction (MTP) versuchten, dies durch Vorhersage zukünftiger Token parallel zu berücksichtigen. Diese Methoden verwickelten jedoch immer noch Eingangs-/Ausgangsgranularität und kämpften mit kleineren Architekturen.
The research team identified a critical insight through synthetic experiments with context-free grammars: input and output vocabularies influence models differently. Larger input vocabularies consistently improved all model sizes by enriching context representations through multi-gram embeddings. Conversely, larger output vocabularies introduced fine-grained prediction tasks that only benefited sufficiently large models. This dichotomy motivated their Over-Tokenized framework, which separates input encoding (Over-Encoding) and output decoding (Over-Decoding) vocabularies.
Das Forschungsteam identifizierte einen kritischen Einblick durch synthetische Experimente mit kontextfreien Grammatiken: Eingabe- und Ausgangsvokabular beeinflussen Modelle unterschiedlich. Größere Eingangsvokabulare verbesserten alle Modellgrößen konsistent, indem Kontextdarstellungen durch Multi-Gram-Einbettungen angereichert wurden. Umgekehrt führten größere Ausgangsvokabulare feinkörnige Vorhersageaufgaben ein, die nur ausreichend große Modelle profitierten. Diese Dichotomie motivierte ihr übergelostetes Framework, das die Eingangscodierung (Überkodierung) und die Ausgangsdecodierung (über-dekodierende) Vokabulare trennt.
Over-Encoding (OE) scales input vocabularies exponentially using hierarchical n-gram embeddings. Instead of a single token ID, each input token is represented as the sum of 1-, 2-, and 3-gram embeddings. For example, the word “cat” might decompose into embeddings for “c,” “ca,” and “cat,” allowing the model to capture multi-scale contextual cues. To avoid impractical memory costs from large n-gram tables (e.g., 100k³ entries), the team used parameter-efficient techniques:
Over-Coding (OE) -Skalen-Eingabevokabularien exponentiell unter Verwendung hierarchischer N-Gramm-Einbettungen. Anstelle einer einzelnen Token-ID wird jedes Eingangs-Token als Summe von 1-, 2- und 3-Gramm-Einbettungen dargestellt. Zum Beispiel könnte das Wort "Katze" in Einbettungen für "C", "CA" und "Cat" zersetzen, sodass das Modell mehrskalige kontextbezogene Hinweise erfassen kann. Um unpraktische Speicherkosten aus großen N-Gramm-Tabellen (z. B. 100K³-Einträgen) zu vermeiden, verwendete das Team parametereffiziente Techniken:
Over-Decoding (OD) approximates larger output vocabularies by predicting multiple future tokens sequentially, a refinement of earlier MTP methods. For instance, instead of predicting one token at a time, OD trains the model to predict the next two tokens conditioned on the first prediction. Crucially, OD is selectively applied—only larger models benefit from this granular supervision, while smaller ones retain single-token decoding to avoid underfitting.
Overdecoding (OD) nähert sich größerer Ausgangsvokabularien, indem mehrere zukünftige Token nacheinander vorhergesagt, eine Verfeinerung früherer MTP-Methoden. Anstatt beispielsweise jeweils ein Token vorherzusagen, trainiert OD das Modell, um die nächsten beiden Token, die auf der ersten Vorhersage konditioniert sind, vorherzusagen. Entscheidend ist, dass OD selektiv angewendet wird-nur größere Modelle profitieren von dieser granularen Überwachung, während kleinere eine einköpfige Dekodierung beibehalten, um eine Unteranpassung zu vermeiden.
The researchers performed experiments on OLMo and OLMoE architectures and demonstrated three key findings:
Die Forscher führten Experimente zu Olmo und Olmoe -Architekturen durch und zeigten drei wichtige Erkenntnisse:
On evaluations, the framework demonstrated consistent performance improvements across various model types. For dense models, a 151M Over-Encoded (OE) model achieved a 14% reduction in perplexity compared to its baseline. Similarly, in sparse Mixture-of-Experts (MoE) models, the OLMoE-1.3B with OE reduced validation loss by 0.12 points, although the gains were less pronounced as the benefits of sparse experts diluted the impact of embedding enhancements. Beyond synthetic experiments, real-world evaluations on large-scale datasets further validated these findings. Over-Encoded models consistently improved performance across multiple benchmarks, including MMLU-Var, Hellaswag, ARC-Challenge, ARC-Easy, and PIQA. Notably, the framework accelerated convergence, achieving a 5.7× speedup in training loss reduction. Additionally, downstream evaluations showed significant acceleration, with OE delivering speedups of 3.2× on MMLU-Var, 3.0× on Hellaswag, 2.6× on ARC-Challenge, 3.1× on ARC-Easy, and 3.9× on PIQA, highlighting its efficiency and effectiveness across diverse tasks.
Bei Bewertungen zeigte das Framework konsistente Leistungsverbesserungen über verschiedene Modelltypen hinweg. Für dichte Modelle erreichte ein über-codiertes 151-m-Modell (OE) im Vergleich zu seiner Grundlinie eine Verringerung der Verwirrung um 14%. In ähnlicher Weise wurden in spärlichen Modellen der Experten (MEE) die OLMOE-1,3B mit OE den Validierungsverlust um 0,12 Punkte reduziert, obwohl die Gewinne weniger ausgeprägt waren, da die Vorteile von spärlichen Experten den Einfluss von Einbleibenserhöhungen verwässerten. Über synthetische Experimente hinaus validierten reale Bewertungen in groß angelegten Datensätzen diese Ergebnisse weiter. Überkodierte Modelle verbesserten die Leistung konsequent über mehrere Benchmarks, darunter MMLU-VAR, Hellaswag, Bogen-Challenge, Bogen-Easy und Piqa. Bemerkenswerterweise beschleunigte der Rahmen die Konvergenz und erzielte eine 5,7 -fache Beschleunigung bei der Reduzierung des Trainingsverlusts. Zusätzlich zeigten nachgeschaltete Bewertungen eine signifikante Beschleunigung, wobei OE Beschleunigungen von 3,2 × auf mmlu-var, 3,0 × auf Hellaswag, 2,6 × auf Bogenkallenge, 3,1 × auf Lichtbogen und 3,9 × auf PIQA lieferten, deren Effizienz und Effektivität hervorgehoben wird, und die Effizienz und Effektivität hervorheben, die seinen Effizienz und die Effektivität hervorhebt, hervorzuheben, und hervorhebt deren Effizienz und Effektivität, hervorzuheben seines Effizienz und Effektivität. über verschiedene Aufgaben hinweg.
In conclusion, this work redefines tokenization as a scalable dimension in language model design. By decoupling input and output vocabularies, Over-Tokenized Transformers break traditional trade-offs, enabling smaller models to benefit from compressed input sequences without grappling with overly complex prediction tasks. The log-linear relationship between input vocabulary size and performance suggests embedding parameters represent a new axis for scaling laws, complementing existing work on model depth and width. Practically, the framework offers a low-cost upgrade path for existing architectures—integrating Over-Encoding requires minimal code changes but yields immediate efficiency gains. Future research could explore hybrid tokenization strategies or dynamic vocabulary adaptation, further solidifying tokenization’s role in the next generation of efficient, high-performing LLMs.
Zusammenfassend definiert diese Arbeit die Tokenisierung als skalierbare Dimension im Sprachmodelldesign neu. Durch die Entkopplung von Eingangs- und Ausgangsvokabularien brechen überrennende Transformatoren traditionelle Kompromisse ein und ermöglichen es, dass kleinere Modelle von komprimierten Eingangssequenzen profitieren, ohne sich mit übermäßig komplexen Vorhersageaufgaben auseinanderzusetzen. Die logarithmisch-lineare Beziehung zwischen der Größe des Eingangsvokabulars und der Leistung deutet darauf hin, dass Einbettungsparameter eine neue Achse für die Skalierungsgesetze darstellen und bestehende Arbeiten zur Modelltiefe und -breite ergänzen. Praktisch bietet das Framework einen kostengünstigen Upgrade-Pfad für bestehende Architekturen. Integration über die Überkodierung erfordert minimale Codesänderungen, liefert jedoch sofortige Effizienzgewinne. Zukünftige Forschungen könnten Hybrid-Tokenisierungsstrategien oder dynamische Vokabularanpassungen untersuchen und die Rolle der Tokenisierung bei der nächsten Generation effizienter, leistungsstarker LLMs weiter verfestigen.
Check out the Paper. All credit for this research goes to the researchers of this project. Also, don’t forget to follow us on Twitter and join our Telegram Channel and LinkedIn Group. Don’t Forget to join our 70k+ ML SubReddit.
Schauen Sie sich das Papier an. Alle Krediten für diese Forschung gilt an die Forscher dieses Projekts. Vergessen Sie auch nicht, uns auf Twitter zu folgen und unserem Telegrammkanal und LinkedIn Group beizutreten. Vergessen Sie nicht, sich unserem 70k+ ml Subreddit anzuschließen.
🚨 Meet IntellAgent: An Open-Source Multi
🚨 Treffen intellagent: ein Open-Source-Multi
Haftungsausschluss:info@kdj.com
The information provided is not trading advice. kdj.com does not assume any responsibility for any investments made based on the information provided in this article. Cryptocurrencies are highly volatile and it is highly recommended that you invest with caution after thorough research!
If you believe that the content used on this website infringes your copyright, please contact us immediately (info@kdj.com) and we will delete it promptly.
-
- Grayscale startet Bitcoin Mining ETF (MNRS) und bietet Anlegern ein reguliertes Engagement in Bitcoin -Bergbauunternehmen
- Jan 31, 2025 at 07:05 am
- Grayscale hat den Bitcoin Miners ETF (MNRS) eingeführt, um den Anlegern den Bitcoin -Bergbauunternehmen zu bieten. Die New Yorker Börse (NYSE) Arca hat diesen Fonds offiziell aufgelistet.
-
- Bitcoin (BTC) mahlt höher, Nachi -Projekte Breakout über 110.000 USD im Februar
- Jan 31, 2025 at 07:05 am
- Die Kryptowährungsmärkte steigen am Donnerstag, angetrieben von positiven Entwicklungen auf dem breiteren Markt und einer von der European Central angekündigten Punktzinsrate von 25 Basen, die angekündigt wurden