|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Articles d’actualité sur les crypto-monnaies
Transformers surévalués: réinventer la conception du vocabulaire pour des modèles de langage efficaces et évolutifs
Jan 31, 2025 at 01:43 am
La tokenisation joue un rôle fondamental dans la performance et l'évolutivité des modèles de grande langue (LLM). En dépit d'être un élément essentiel, son influence sur la formation et l'efficacité des modèles reste sous-explorée. Bien que les vocabulaires plus importants puissent compresser les séquences et réduire les coûts de calcul, les approches existantes lient les vocabulaires d'entrée et de sortie ensemble, créant des compromis où la mise à l'échelle profite aux modèles plus grands mais en prédisant les plus petits. Cet article introduit un cadre appelé transformateurs surélevés qui réinvente la conception du vocabulaire en découplant l'entrée et la tokenisation de sortie, débloquant de nouvelles voies pour l'efficacité du modèle et les performances.
Tokenization, a fundamental aspect of language models, has largely remained unexplored in terms of its influence on model training efficiency and performance. While increasing vocabulary size can reduce sequence length and computational costs, existing approaches tie input and output vocabularies together, creating trade-offs where scaling benefits larger models but harms smaller ones. To address this, researchers introduce Over-Tokenized Transformers, a framework that reimagines vocabulary design by decoupling input and output tokenization, unlocking new pathways for model efficiency and performance.
La tokenisation, un aspect fondamental des modèles linguistiques, est restée largement inexplorée en termes d'influence sur l'efficacité et les performances de la formation des modèles. Bien que l'augmentation de la taille du vocabulaire puisse réduire la longueur des séquences et les coûts de calcul, les approches existantes lient les vocabulaires d'entrée et de sortie ensemble, créant des compromis où la mise à l'échelle profite aux modèles plus grands mais en prédisant les plus petits. Pour y remédier, les chercheurs introduisent des transformateurs surélevés, un cadre qui réinvente la conception du vocabulaire en découplant les entrées et la tokenisation de sortie, débloquant de nouvelles voies pour l'efficacité du modèle et les performances.
Traditional tokenization methods use identical vocabularies for both input processing and output prediction. While larger vocabularies allow models to process longer n-gram tokens (e.g., multi-character sequences), they force smaller models to handle overly granular output predictions, increasing the risk of underfitting. For instance, a 3-gram tokenizer reduces sequence length by 66% but requires predicting three characters jointly—a task manageable for large models but overwhelming for smaller ones. Previous work like multi-token prediction (MTP) attempted to address this by predicting future tokens in parallel, but these methods still entangled input/output granularity and struggled with smaller architectures.
Les méthodes de tokenisation traditionnelles utilisent des vocabulaires identiques pour le traitement des entrées et la prédiction de sortie. Bien que les vocabulaires plus grands permettent aux modèles de traiter des jetons N-gram plus longs (par exemple, des séquences multi-caractères), elles obligent les modèles plus petits à gérer les prédictions de sortie trop granulaires, augmentant le risque de sous-instruction. Par exemple, un tokenzer à 3 grammes réduit la longueur de séquence de 66% mais nécessite de prédire trois caractères conjointement - une tâche gérable pour les grands modèles mais écrasante pour les plus petites. Des travaux antérieurs comme la prédiction multi-token (MTP) ont tenté de résoudre ce problème en prédisant les jetons futurs en parallèle, mais ces méthodes ont toujours enchevré la granularité d'entrée / sortie et ont lutté avec des architectures plus petites.
The research team identified a critical insight through synthetic experiments with context-free grammars: input and output vocabularies influence models differently. Larger input vocabularies consistently improved all model sizes by enriching context representations through multi-gram embeddings. Conversely, larger output vocabularies introduced fine-grained prediction tasks that only benefited sufficiently large models. This dichotomy motivated their Over-Tokenized framework, which separates input encoding (Over-Encoding) and output decoding (Over-Decoding) vocabularies.
L'équipe de recherche a identifié un aperçu critique grâce à des expériences synthétiques avec des grammaires sans contexte: les vocabulaires d'entrée et de sortie influencent les modèles différemment. Des vocabulaires d'entrée plus importants ont systématiquement amélioré toutes les tailles de modèle en enrichissant les représentations de contexte via des incorporations multiprammes. Inversement, des vocabulaires de sortie plus grands ont introduit des tâches de prédiction à grain fin qui ne bénéficiaient que de modèles suffisamment grands. Cette dichotomie a motivé leur cadre trop tendu, ce qui sépare le codage d'entrée (trop codé) et les vocabulaires de décodage de sortie (trop décodants).
Over-Encoding (OE) scales input vocabularies exponentially using hierarchical n-gram embeddings. Instead of a single token ID, each input token is represented as the sum of 1-, 2-, and 3-gram embeddings. For example, the word “cat” might decompose into embeddings for “c,” “ca,” and “cat,” allowing the model to capture multi-scale contextual cues. To avoid impractical memory costs from large n-gram tables (e.g., 100k³ entries), the team used parameter-efficient techniques:
Le sursaut (OE) échelle les vocabulaires d'entrée de façon exponentielle en utilisant des incorporations n-grams hiérarchiques. Au lieu d'un seul ID de jeton, chaque jeton d'entrée est représenté comme la somme des intérêts 1, 2 et 3 grammes. Par exemple, le mot «chat» pourrait se décomposer en intégres pour «C», «Ca» et «Cat», permettant au modèle de capturer des indices contextuels à échelle multiples. Pour éviter les coûts de mémoire peu pratiques des grandes tables N-Gram (par exemple, 100k³ entrées), l'équipe a utilisé des techniques éconergétiques:
Over-Decoding (OD) approximates larger output vocabularies by predicting multiple future tokens sequentially, a refinement of earlier MTP methods. For instance, instead of predicting one token at a time, OD trains the model to predict the next two tokens conditioned on the first prediction. Crucially, OD is selectively applied—only larger models benefit from this granular supervision, while smaller ones retain single-token decoding to avoid underfitting.
Le dépassement (OD) se rapproche des vocabulaires de sortie plus grands en prédisant séquentiellement les futurs jetons futurs, un raffinement des méthodes MTP antérieures. Par exemple, au lieu de prédire un jeton à la fois, OD entraîne le modèle pour prédire les deux jetons suivants conditionnés sur la première prédiction. Surtout, l'OD est appliquée sélectivement - seuls les modèles plus grands bénéficient de cette supervision granulaire, tandis que les plus petites conservent le décodage unique pour éviter le sous-étape.
The researchers performed experiments on OLMo and OLMoE architectures and demonstrated three key findings:
Les chercheurs ont effectué des expériences sur les architectures Olmo et Olmoe et ont démontré trois résultats clés:
On evaluations, the framework demonstrated consistent performance improvements across various model types. For dense models, a 151M Over-Encoded (OE) model achieved a 14% reduction in perplexity compared to its baseline. Similarly, in sparse Mixture-of-Experts (MoE) models, the OLMoE-1.3B with OE reduced validation loss by 0.12 points, although the gains were less pronounced as the benefits of sparse experts diluted the impact of embedding enhancements. Beyond synthetic experiments, real-world evaluations on large-scale datasets further validated these findings. Over-Encoded models consistently improved performance across multiple benchmarks, including MMLU-Var, Hellaswag, ARC-Challenge, ARC-Easy, and PIQA. Notably, the framework accelerated convergence, achieving a 5.7× speedup in training loss reduction. Additionally, downstream evaluations showed significant acceleration, with OE delivering speedups of 3.2× on MMLU-Var, 3.0× on Hellaswag, 2.6× on ARC-Challenge, 3.1× on ARC-Easy, and 3.9× on PIQA, highlighting its efficiency and effectiveness across diverse tasks.
Lors des évaluations, le cadre a démontré des améliorations de performances cohérentes entre différents types de modèles. Pour les modèles denses, un modèle de 151 M sur-codé (OE) a atteint une réduction de 14% de perplexité par rapport à sa ligne de base. De même, dans les modèles clairsemés du mélange de réseaux (MOE), l'OLMOE-1.3B avec une perte de validation réduite de 0,12 points, bien que les gains soient moins prononcés car les avantages des experts clairsemés ont dilué l'impact des améliorations de l'intégration. Au-delà des expériences synthétiques, les évaluations du monde réel sur les ensembles de données à grande échelle ont validé ces résultats. Les modèles surévalués ont systématiquement amélioré les performances sur plusieurs repères, notamment MMLU-VAR, Hellaswag, Arc-Challenge, Arc-Easy et PIQA. Notamment, le cadre a accéléré la convergence, réalisant une accélération de 5,7 × dans la réduction des pertes d'entraînement. Additionally, downstream evaluations showed significant acceleration, with OE delivering speedups of 3.2× on MMLU-Var, 3.0× on Hellaswag, 2.6× on ARC-Challenge, 3.1× on ARC-Easy, and 3.9× on PIQA, highlighting its efficiency and effectiveness à travers diverses tâches.
In conclusion, this work redefines tokenization as a scalable dimension in language model design. By decoupling input and output vocabularies, Over-Tokenized Transformers break traditional trade-offs, enabling smaller models to benefit from compressed input sequences without grappling with overly complex prediction tasks. The log-linear relationship between input vocabulary size and performance suggests embedding parameters represent a new axis for scaling laws, complementing existing work on model depth and width. Practically, the framework offers a low-cost upgrade path for existing architectures—integrating Over-Encoding requires minimal code changes but yields immediate efficiency gains. Future research could explore hybrid tokenization strategies or dynamic vocabulary adaptation, further solidifying tokenization’s role in the next generation of efficient, high-performing LLMs.
En conclusion, ce travail redéfinit la tokenisation comme une dimension évolutive dans la conception du modèle de langue. En découplant les vocabulaires d'entrée et de sortie, les transformateurs surélevés rompent les compromis traditionnels, permettant aux modèles plus petits de bénéficier de séquences d'entrée compressées sans lutter contre les tâches de prédiction trop complexes. La relation log-linéaire entre la taille et les performances du vocabulaire d'entrée suggère que les paramètres d'intégration représentent un nouvel axe pour les lois sur l'échelle, complétant les travaux existants sur la profondeur et la largeur du modèle. Pratiquement, le cadre offre un chemin de mise à niveau à faible coût pour les architectures existantes - l'intégration de surexposition nécessite des modifications de code minimales mais donne des gains d'efficacité immédiates. Les recherches futures pourraient explorer des stratégies de tokenisation hybrides ou une adaptation de vocabulaire dynamique, solidifiant davantage le rôle de la tokenisation dans la prochaine génération de LLM efficaces et performants.
Check out the Paper. All credit for this research goes to the researchers of this project. Also, don’t forget to follow us on Twitter and join our Telegram Channel and LinkedIn Group. Don’t Forget to join our 70k+ ML SubReddit.
Découvrez le papier. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N'oubliez pas non plus de nous suivre sur Twitter et de rejoindre notre chaîne Telegram et LinkedIn Group. N'oubliez pas de rejoindre notre Sandredit 70K + ML.
🚨 Meet IntellAgent: An Open-Source Multi
🚨 Rencontrez Intellegent: un multi-open source
Clause de non-responsabilité:info@kdj.com
The information provided is not trading advice. kdj.com does not assume any responsibility for any investments made based on the information provided in this article. Cryptocurrencies are highly volatile and it is highly recommended that you invest with caution after thorough research!
If you believe that the content used on this website infringes your copyright, please contact us immediately (info@kdj.com) and we will delete it promptly.
-
- Trois Altcoins axés sur les services publics attirent l'attention des investisseurs précoces alors que XRP s'approche d'un nouveau sommet de tous les temps
- Jan 31, 2025 at 07:05 am
- Avec XRP approchant un nouveau record de tous les temps, les commerçants recherchent la prochaine grande opportunité. Trois Altcoins axés sur les services publics - Solaxie, index de mèmes et meilleur
-
- Wallitiq (WLTQ): Le jeton de crypto-monnaie dominant la conversation entre les meilleurs commerçants
- Jan 31, 2025 at 07:05 am
- Le monde de la cryptographie a toujours été un aimant pour l'innovation, et Wallitiq (WLTQ) est le dernier changeur de jeu dans l'espace. Avec les commerçants à la recherche facile
-
- Grayscale lance Bitcoin Mining ETF (MNRS), offrant aux investisseurs une exposition réglementée aux sociétés d'extraction de Bitcoin
- Jan 31, 2025 at 07:05 am
- GraysCale a lancé le Bitcoin Miners ETF (MNRS) pour fournir aux investisseurs une exposition aux sociétés d'extraction de Bitcoin. La Bourse de New York (NYSE) ARCA a officiellement inscrit ce fonds.
-
- Bitcoin (BTC) Prix s'accroche, Nachi Projects Breakout au-dessus de 110 000 $ en février
- Jan 31, 2025 at 07:05 am
- Les marchés des crypto-monnaies augmentent jeudi, alimentés par des développements positifs sur le marché plus large et une baisse du taux de points de 25 bassis annoncé par le centre européen