|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
トークン化は、大規模な言語モデル(LLM)のパフォーマンスとスケーラビリティに基本的な役割を果たします。重要な要素であるにもかかわらず、モデルのトレーニングと効率への影響は依存していないままです。大規模な語彙は、シーケンスを圧縮して計算コストを削減できますが、既存のアプローチは入力と出力の語彙を結び付け、スケーリングがより大きなモデルに利益をもたらすが、小さなモデルに害を及ぼすトレードオフを作成します。このペーパーでは、入力と出力トークン化を分離し、モデルの効率とパフォーマンスのための新しい経路のロックを解除することにより、語彙設計を再考するオーバートークン化された変圧器と呼ばれるフレームワークを紹介します。
Tokenization, a fundamental aspect of language models, has largely remained unexplored in terms of its influence on model training efficiency and performance. While increasing vocabulary size can reduce sequence length and computational costs, existing approaches tie input and output vocabularies together, creating trade-offs where scaling benefits larger models but harms smaller ones. To address this, researchers introduce Over-Tokenized Transformers, a framework that reimagines vocabulary design by decoupling input and output tokenization, unlocking new pathways for model efficiency and performance.
言語モデルの基本的な側面であるトークン化は、モデルトレーニングの効率とパフォーマンスに影響を与えるという点で、ほとんど未踏のままでした。語彙サイズを増やすとシーケンスの長さと計算コストが削減されますが、既存のアプローチは入力と出力の語彙を結び付け、スケーリングがより大きなモデルに利益をもたらすが、より小さなモデルに害を及ぼすトレードオフを作成します。これに対処するために、研究者は、入力と出力トークン化を分離し、モデルの効率とパフォーマンスのための新しい経路のロックを解除することにより、語彙設計を再考するフレームワークである、オーバートークン化されたトランスを導入します。
Traditional tokenization methods use identical vocabularies for both input processing and output prediction. While larger vocabularies allow models to process longer n-gram tokens (e.g., multi-character sequences), they force smaller models to handle overly granular output predictions, increasing the risk of underfitting. For instance, a 3-gram tokenizer reduces sequence length by 66% but requires predicting three characters jointly—a task manageable for large models but overwhelming for smaller ones. Previous work like multi-token prediction (MTP) attempted to address this by predicting future tokens in parallel, but these methods still entangled input/output granularity and struggled with smaller architectures.
従来のトークン化方法は、入力処理と出力予測の両方に同一の語彙を使用します。大型の語彙により、モデルはより長いn-Gramトークン(たとえば、マルチキャラクターシーケンス)を処理できますが、より小さなモデルに過度の粒状出力予測を処理するように強制され、体調不良のリスクが高まります。たとえば、3グラムのトークナイザーはシーケンスの長さを66%削減しますが、3つの文字を共同で予測する必要があります。これは、大規模なモデルでは管理可能ですが、小さなモデルでは圧倒的です。マルチトークン予測(MTP)のような以前の研究は、将来のトークンを並行して予測することでこれに対処しようとしましたが、これらの方法はまだ入力/出力の粒度と絡み合っており、より小さなアーキテクチャに苦しんでいました。
The research team identified a critical insight through synthetic experiments with context-free grammars: input and output vocabularies influence models differently. Larger input vocabularies consistently improved all model sizes by enriching context representations through multi-gram embeddings. Conversely, larger output vocabularies introduced fine-grained prediction tasks that only benefited sufficiently large models. This dichotomy motivated their Over-Tokenized framework, which separates input encoding (Over-Encoding) and output decoding (Over-Decoding) vocabularies.
研究チームは、コンテキストのない文法を使用した合成実験を通じて重要な洞察を特定しました。入力と出力の語彙は、モデルに異なって影響を与えます。より大きな入力語彙は、マルチグラム埋め込みを介してコンテキスト表現を濃縮することにより、すべてのモデルサイズを一貫して改善しました。逆に、より大きな出力の語彙は、十分に大きなモデルのみに利益をもたらす細かい予測タスクを導入しました。この二分法は、過剰な角質化されたフレームワークを動機付け、入力エンコード(過剰なエンコード)と出力デコード(過剰コード)語彙を分離します。
Over-Encoding (OE) scales input vocabularies exponentially using hierarchical n-gram embeddings. Instead of a single token ID, each input token is represented as the sum of 1-, 2-, and 3-gram embeddings. For example, the word “cat” might decompose into embeddings for “c,” “ca,” and “cat,” allowing the model to capture multi-scale contextual cues. To avoid impractical memory costs from large n-gram tables (e.g., 100k³ entries), the team used parameter-efficient techniques:
オーバーエンコード(OE)スケール階層n-Gram埋め込みを使用して、語彙を指数関数的に入力します。単一のトークンIDの代わりに、各入力トークンは、1、2、および3グラムの埋め込みの合計として表されます。たとえば、「CAT」という言葉は、「C」、「CA」、「CAT」の埋め込みに分解される可能性があり、モデルがマルチスケールのコンテキストキューをキャプチャできるようにします。大規模なNグラムテーブルからの非現実的なメモリコスト(たとえば、100k³エントリ)を回避するために、チームはパラメーター効率の高い手法を使用しました。
Over-Decoding (OD) approximates larger output vocabularies by predicting multiple future tokens sequentially, a refinement of earlier MTP methods. For instance, instead of predicting one token at a time, OD trains the model to predict the next two tokens conditioned on the first prediction. Crucially, OD is selectively applied—only larger models benefit from this granular supervision, while smaller ones retain single-token decoding to avoid underfitting.
過剰廃止(OD)は、以前のMTPメソッドの改良性を順番に予測することにより、より大きな出力語彙に近似します。たとえば、一度に1つのトークンを予測する代わりに、ODはモデルをトレーニングして、最初の予測に条件付けられた次の2つのトークンを予測します。重要なことに、ODは選択的に適用されます。この粒度の監督の恩恵を受けるのは、より大きなモデルのみであり、小さなものが不足を避けるためにシングルトークンデコードを保持します。
The researchers performed experiments on OLMo and OLMoE architectures and demonstrated three key findings:
研究者は、OlmoおよびOlmoeの建築に関する実験を実施し、3つの重要な調査結果を実証しました。
On evaluations, the framework demonstrated consistent performance improvements across various model types. For dense models, a 151M Over-Encoded (OE) model achieved a 14% reduction in perplexity compared to its baseline. Similarly, in sparse Mixture-of-Experts (MoE) models, the OLMoE-1.3B with OE reduced validation loss by 0.12 points, although the gains were less pronounced as the benefits of sparse experts diluted the impact of embedding enhancements. Beyond synthetic experiments, real-world evaluations on large-scale datasets further validated these findings. Over-Encoded models consistently improved performance across multiple benchmarks, including MMLU-Var, Hellaswag, ARC-Challenge, ARC-Easy, and PIQA. Notably, the framework accelerated convergence, achieving a 5.7× speedup in training loss reduction. Additionally, downstream evaluations showed significant acceleration, with OE delivering speedups of 3.2× on MMLU-Var, 3.0× on Hellaswag, 2.6× on ARC-Challenge, 3.1× on ARC-Easy, and 3.9× on PIQA, highlighting its efficiency and effectiveness across diverse tasks.
評価では、フレームワークは、さまざまなモデルタイプで一貫したパフォーマンスの改善を実証しました。高密度モデルの場合、151mのオーバーエンコード(OE)モデルは、そのベースラインと比較して困惑を14%減少させました。同様に、スパース混合混合物(MOE)モデルでは、OE-1.3Bは検証損失を0.12ポイント減少させましたが、まばらな専門家の利点が埋め込み強化の影響を薄めたため、ゲインはあまり顕著ではありませんでした。合成実験を超えて、大規模なデータセットでの実際の評価は、これらの調査結果をさらに検証しました。エンコードされたモデルは、MMLU-VAR、Hellaswag、Arc-Challenge、Arc-Easy、Piqaなど、複数のベンチマークのパフォーマンスを一貫して改善しました。特に、フレームワークは収束を加速し、トレーニング損失削減で5.7×スピードアップを達成しました。さらに、下流の評価では有意な加速が示され、OEはMMLU-VARで3.2×、Hellaswagで3.6×Arc-Challenge、Arc-Easyで3.1×Piqaで3.9×のスピードアップを提供し、その効率と効果と効果を強調します。多様なタスクを越えて。
In conclusion, this work redefines tokenization as a scalable dimension in language model design. By decoupling input and output vocabularies, Over-Tokenized Transformers break traditional trade-offs, enabling smaller models to benefit from compressed input sequences without grappling with overly complex prediction tasks. The log-linear relationship between input vocabulary size and performance suggests embedding parameters represent a new axis for scaling laws, complementing existing work on model depth and width. Practically, the framework offers a low-cost upgrade path for existing architectures—integrating Over-Encoding requires minimal code changes but yields immediate efficiency gains. Future research could explore hybrid tokenization strategies or dynamic vocabulary adaptation, further solidifying tokenization’s role in the next generation of efficient, high-performing LLMs.
結論として、この作業は、言語モデル設計のスケーラブルな次元としてトークン化を再定義します。入力と出力の語彙を切り離すことにより、オーバートークン化されたトランスは従来のトレードオフを破り、より複雑な予測タスクに取り組むことなく、より小さなモデルが圧縮入力シーケンスから利益を得ることができます。入力の語彙サイズとパフォーマンスの対数線形関係は、埋め込みパラメーターをスケーリング法則の新しい軸を表し、モデルの深さと幅に関する既存の作業を補完することを示唆しています。実際には、このフレームワークは既存のアーキテクチャの低コストのアップグレードパスを提供します。過剰なエンコードを統合するには、最小限のコード変更が必要ですが、即時の効率向上が得られます。将来の研究では、ハイブリッドトークン化戦略または動的な語彙適応を探求し、次世代の効率的で高性能なLLMにおけるトークン化の役割をさらに固めます。
Check out the Paper. All credit for this research goes to the researchers of this project. Also, don’t forget to follow us on Twitter and join our Telegram Channel and LinkedIn Group. Don’t Forget to join our 70k+ ML SubReddit.
論文をチェックしてください。この研究のすべてのクレジットは、このプロジェクトの研究者に送られます。また、Twitterでフォローして、Telegram ChannelとLinkedInグループに参加することを忘れないでください。 70k+ ml subredditに参加することを忘れないでください。
🚨 Meet IntellAgent: An Open-Source Multi
Intellagentに会う:オープンソースマルチ
免責事項:info@kdj.com
The information provided is not trading advice. kdj.com does not assume any responsibility for any investments made based on the information provided in this article. Cryptocurrencies are highly volatile and it is highly recommended that you invest with caution after thorough research!
If you believe that the content used on this website infringes your copyright, please contact us immediately (info@kdj.com) and we will delete it promptly.
-
- テスラとビットコイン
- 2025-01-31 07:05:54
- テスラの前四半期の収益の約4分の1は、ビットコインで6億ドルの利益を認識したことによるものでした。テスラはまだ期待が足りませんでした。