時価総額: $2.6654T -0.710%
ボリューム(24時間): $42.519B -57.530%
  • 時価総額: $2.6654T -0.710%
  • ボリューム(24時間): $42.519B -57.530%
  • 恐怖と貪欲の指数:
  • 時価総額: $2.6654T -0.710%
暗号
トピック
暗号化
ニュース
暗号造園
動画
トップニュース
暗号
トピック
暗号化
ニュース
暗号造園
動画
bitcoin
bitcoin

$83346.880838 USD

-0.62%

ethereum
ethereum

$1805.949753 USD

-0.44%

tether
tether

$0.999666 USD

0.00%

xrp
xrp

$2.133678 USD

0.70%

bnb
bnb

$590.813771 USD

-1.07%

solana
solana

$120.127205 USD

-0.72%

usd-coin
usd-coin

$1.000074 USD

0.00%

dogecoin
dogecoin

$0.167862 USD

-1.17%

cardano
cardano

$0.646477 USD

-2.04%

tron
tron

$0.236038 USD

-1.02%

unus-sed-leo
unus-sed-leo

$9.140933 USD

-0.57%

chainlink
chainlink

$12.769209 USD

-0.92%

toncoin
toncoin

$3.233802 USD

-2.39%

stellar
stellar

$0.251938 USD

-2.89%

avalanche
avalanche

$17.403076 USD

-4.14%

暗号通貨のニュース記事

マルチトークンの注意(MTA)により、コンテキスト情報の効率的な検索が可能になります

2025/04/02 14:54

このペーパーでは、複数のクエリとキーベクトルに注意の重みを同時に条件付ける高度な注意メカニズムであるマルチトークンの注意(MTA)を紹介します。

マルチトークンの注意(MTA)により、コンテキスト情報の効率的な検索が可能になります

Large Language Models (LLMs) have significantly benefited from attention mechanisms, which enable the effective retrieval of contextual information. However, traditional attention methods primarily depend on single token attention, where each attention weight is calculated from a single pair of query and key vectors.

大規模な言語モデル(LLM)は、文脈情報の効果的な検索を可能にする注意メカニズムから大きな恩恵を受けています。ただし、従来の注意方法は主に単一のトークンの注意に依存します。そこでは、各注意重量はクエリとキーベクトルの単一のペアから計算されます。

This design inherently constrains the model's ability to discern contexts that require the integration of multiple token signals, ultimately limiting its effectiveness on complex linguistic dependencies. For instance, identifying sentences that simultaneously contain both "Alice" and "rabbit" poses a challenge because conventional attention mechanisms struggle to combine multiple separate attention signals efficiently without substantially increasing model complexity.

この設計は、複数のトークン信号の統合を必要とするコンテキストを識別するモデルの能力を本質的に制約し、最終的にその効果を複雑な言語依存関係に制限します。たとえば、従来の注意メカニズムは、モデルの複雑さを大幅に増加させることなく、複数の個別の注意信号を効率的に組み合わせるのに苦労するため、「アリス」と「ウサギ」の両方を同時に含む文章を識別することは課題となります。

To address this limitation, researchers from Meta AI have introduced Multi-Token Attention (MTA), an advanced attention mechanism that simultaneously conditions attention weights on multiple query and key vectors. MTA integrates convolution operations over queries, keys, and attention heads, thus enhancing the precision and efficiency of contextual information retrieval.

この制限に対処するために、Meta AIの研究者は、複数のクエリとキーベクターの注意の重みを同時に条件付ける高度な注意メカニズムであるマルチトークンの注意(MTA)を導入しました。 MTAは、クエリ、キー、および注意ヘッドを介して畳み込み操作を統合し、コンテキスト情報の取得の精度と効率を高めます。

MTA framework consists of two convolutional components:

MTAフレームワークは、2つの畳み込みコンポーネントで構成されています。

1) key-query convolution, which aggregates multiple token signals within individual attention heads, and

1)個々の注意ヘッド内で複数のトークン信号を集約するキークリークの畳み込み、および

2) head mixing convolution, which facilitates information sharing among different attention heads. MTA is implemented using group normalization with depth-dependent scaling to stabilize gradient flow, further improving model training stability and efficacy.

2)さまざまな注意ヘッド間の情報共有を促進するヘッドミキシング畳み込み。 MTAは、勾配の流れを安定させるために深さ依存のスケーリングを備えたグループ正規化を使用して実装され、モデルトレーニングの安定性と有効性をさらに改善します。

At a technical level, MTA modifies standard attention calculations by incorporating a two-dimensional convolution operation on the attention logits before softmax normalization. This convolution allows adjacent queries and keys to influence attention scores mutually, enabling the attention mechanism to identify contextual relationships more precisely. Consequently, the model efficiently aggregates local token interactions without significantly increasing the number of parameters or the dimensionality of attention vectors.

技術レベルでは、MTAは、SoftMaxの正規化の前に注意ロジットに2次元畳み込み操作を組み込むことにより、標準の注意計算を変更します。この畳み込みにより、隣接するクエリとキーが注意スコアに相互に影響を与えることができ、注意メカニズムがコンテキスト関係をより正確に識別できるようになります。その結果、モデルは、パラメーターの数や注意ベクトルの次元を大幅に増やすことなく、ローカルトークンの相互作用を効率的に集約します。

MTA promotes effective knowledge transfer among attention heads, selectively amplifying relevant context signals while attenuating less pertinent information. These enhancements collectively yield a more robust attention mechanism capable of capturing complex multi-token interactions.

MTAは、注意ヘッド間の効果的な知識移転を促進し、関連する情報を減衰させながら、関連するコンテキスト信号を選択的に増幅します。これらの機能強化は、複雑なマルチトークン相互作用をキャプチャできる、より堅牢な注意メカニズムを集合的に生成します。

Empirical evaluations validate the efficacy of MTA across several natural language processing (NLP) benchmarks. In a structured motivating task explicitly designed to illustrate the shortcomings of single-token attention mechanisms, MTA demonstrated near-perfect performance, achieving an error rate of only 0.1% in tasks with 4 x 1024 token sequences. In contrast, standard Transformer models exhibited error rates greater than 50%.

経験的評価では、いくつかの自然言語処理(NLP)ベンチマークにわたるMTAの有効性を検証します。シングルトークンの注意メカニズムの欠点を説明するように明示的に設計された構造化された動機付けタスクでは、MTAはほぼ完璧なパフォーマンスを実証し、4 x 1024トークンシーケンスのタスクでわずか0.1%のエラー率を達成しました。対照的に、標準的なトランスモデルは、50%を超えるエラー率を示しました。

Further large-scale experiments involved an 880M-parameter model trained on 105 billion tokens using MTA and baseline architectures. MTA achieved superior validation perplexity scores across diverse datasets such as arXiv, GitHub, and Wikipedia.

さらに大規模な実験では、MTAおよびベースラインアーキテクチャを使用して1,000億トークンで訓練された880mパラメーターモデルが含まれていました。 MTAは、Arxiv、Github、Wikipediaなどの多様なデータセットで優れた検証困惑スコアを達成しました。

MTA outperformed standard Transformer models in tasks requiring extended context comprehension, such as the Needle-in-the-Haystack and BabiLong benchmarks. In the Needle-in-the-Haystack task with 4K token contexts containing multiple needles, MTA achieved accuracies ranging from 67% to 97.6%, surpassing standard models by substantial margins. These results highlight the potential of MTA for enabling LLMs to efficiently process very long-range dependencies.

MTAは、ヘイスタックの針やバビロンベンチマークなど、拡張されたコンテキストの理解を必要とするタスクで標準変圧器モデルを上回りました。複数の針を含む4Kトークンコンテキストを備えた針中のヘイスタックタスクでは、MTAは67%から97.6%の範囲の精度を達成し、標準モデルを大幅なマージンで上回りました。これらの結果は、LLMが非常に長距離依存関係を効率的に処理できるようにするためのMTAの可能性を強調しています。

In summary, Multi-Token Attention (MTA) presents a refined advancement in attention mechanisms by addressing fundamental limitations of traditional single-token attention. Leveraging convolutional operations to concurrently integrate multiple query-key interactions, MTA enhances the ability of language models to handle intricate contextual dependencies.

要約すると、マルチトークンの注意(MTA)は、従来のシングルトークンの注意の基本的な制限に対処することにより、注意メカニズムの洗練された進歩を提示します。畳み込み操作を活用して、複数のクエリキーインタラクションを同時に統合するために、MTAは言語モデルが複雑なコンテキスト依存関係を処理する能力を高めます。

These methodological improvements facilitate more precise and efficient performance, particularly in scenarios involving complex token interactions and long-range contextual understanding. Through targeted modifications to standard attention mechanisms, MTA contributes meaningfully to the evolution of more sophisticated, accurate, and computationally efficient language models.

これらの方法論的改善により、特に複雑なトークンの相互作用と長距離の文脈的理解を含むシナリオでは、より正確で効率的なパフォーマンスが促進されます。標準的な注意メカニズムへのターゲットを絞った変更を通じて、MTAは、より洗練され、正確で、計算効率の良い言語モデルの進化に有意義に貢献します。

免責事項:info@kdj.com

提供される情報は取引に関するアドバイスではありません。 kdj.com は、この記事で提供される情報に基づいて行われた投資に対して一切の責任を負いません。暗号通貨は変動性が高いため、十分な調査を行った上で慎重に投資することを強くお勧めします。

このウェブサイトで使用されているコンテンツが著作権を侵害していると思われる場合は、直ちに当社 (info@kdj.com) までご連絡ください。速やかに削除させていただきます。

2025年04月06日 に掲載されたその他の記事