![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
이 논문은 다중 쿼리 및 주요 벡터에서 동시에주의 가중치를 조건하는 고급주의 메커니즘 인 MTA (Multi-Token Interection)를 소개합니다.
Large Language Models (LLMs) have significantly benefited from attention mechanisms, which enable the effective retrieval of contextual information. However, traditional attention methods primarily depend on single token attention, where each attention weight is calculated from a single pair of query and key vectors.
LLMS (Lange Language Models)는 맥락 정보의 효과적인 검색을 가능하게하는주의 메커니즘의 혜택을 크게 이익을 얻었습니다. 그러나 전통적인주의 방법은 주로 단일 토큰주의에 따라 달라집니다. 여기서 각 주의력은 단일 쌍의 쿼리 및 주요 벡터에서 계산됩니다.
This design inherently constrains the model's ability to discern contexts that require the integration of multiple token signals, ultimately limiting its effectiveness on complex linguistic dependencies. For instance, identifying sentences that simultaneously contain both "Alice" and "rabbit" poses a challenge because conventional attention mechanisms struggle to combine multiple separate attention signals efficiently without substantially increasing model complexity.
이 설계는 본질적으로 여러 토큰 신호의 통합이 필요한 맥락을 분별하는 모델의 능력을 제한하여 궁극적으로 복잡한 언어 적 의존성에 대한 효과를 제한합니다. 예를 들어, "Alice"와 "Rabbit"을 동시에 포함하는 문장을 식별하는 것은 기존의주의 메커니즘이 모델 복잡성을 실질적으로 증가시키지 않으면 서 다수의 별도의주의 신호를 효율적으로 결합하기 위해 어려움을 겪기 때문에 도전을 제기합니다.
To address this limitation, researchers from Meta AI have introduced Multi-Token Attention (MTA), an advanced attention mechanism that simultaneously conditions attention weights on multiple query and key vectors. MTA integrates convolution operations over queries, keys, and attention heads, thus enhancing the precision and efficiency of contextual information retrieval.
이러한 한계를 해결하기 위해 Meta AI의 연구원들은 다중 쿼리 및 주요 벡터의주의 가중치를 동시에 조건하는 고급주의 메커니즘 인 MTA (Multi-Token Interest)를 도입했습니다. MTA는 쿼리, 키 및주의 헤드를 통한 컨볼 루션 작업을 통합하여 상황 정보 검색의 정밀성과 효율성을 향상시킵니다.
MTA framework consists of two convolutional components:
MTA 프레임 워크는 두 가지 컨볼 루션 구성 요소로 구성됩니다.
1) key-query convolution, which aggregates multiple token signals within individual attention heads, and
1) 키 쿼리 컨볼 루션, 개별주의 헤드 내에서 여러 토큰 신호를 집계하고
2) head mixing convolution, which facilitates information sharing among different attention heads. MTA is implemented using group normalization with depth-dependent scaling to stabilize gradient flow, further improving model training stability and efficacy.
2) 헤드 믹싱 컨볼 루션, 다른주의 헤드 간의 정보 공유를 용이하게합니다. MTA는 깊이 의존적 스케일링을 갖는 그룹 정규화를 사용하여 구배 흐름을 안정화시켜 모델 훈련 안정성 및 효능을 더욱 향상시킵니다.
At a technical level, MTA modifies standard attention calculations by incorporating a two-dimensional convolution operation on the attention logits before softmax normalization. This convolution allows adjacent queries and keys to influence attention scores mutually, enabling the attention mechanism to identify contextual relationships more precisely. Consequently, the model efficiently aggregates local token interactions without significantly increasing the number of parameters or the dimensionality of attention vectors.
기술적 수준에서 MTA는 SoftMax 정규화 전에주의 로짓에 2 차원 컨볼 루션 작업을 통합하여 표준주의 계산을 수정합니다. 이 컨볼 루션은 인접한 쿼리와 키가 상호주의 점수에 영향을 미칠 수 있도록하여주의 메커니즘이 상황에 맞는 관계를보다 정확하게 식별 할 수있게합니다. 결과적으로, 모델은 매개 변수의 수 또는주의 벡터의 차원을 크게 증가시키지 않고 국소 토큰 상호 작용을 효율적으로 집계한다.
MTA promotes effective knowledge transfer among attention heads, selectively amplifying relevant context signals while attenuating less pertinent information. These enhancements collectively yield a more robust attention mechanism capable of capturing complex multi-token interactions.
MTA는주의 헤드 간의 효과적인 지식 전달을 촉진하여 관련 컨텍스트 신호를 선택적으로 증폭시키면서 덜 관련된 정보를 약화시킵니다. 이러한 개선 사항은 복잡한 다중 점수 상호 작용을 포착 할 수있는보다 강력한주의 메커니즘을 공동으로 산출합니다.
Empirical evaluations validate the efficacy of MTA across several natural language processing (NLP) benchmarks. In a structured motivating task explicitly designed to illustrate the shortcomings of single-token attention mechanisms, MTA demonstrated near-perfect performance, achieving an error rate of only 0.1% in tasks with 4 x 1024 token sequences. In contrast, standard Transformer models exhibited error rates greater than 50%.
경험적 평가는 여러 자연 언어 처리 (NLP) 벤치 마크에서 MTA의 효능을 검증합니다. 단일 토닉주의 메커니즘의 단점을 설명하기 위해 명시 적으로 설계된 구조화 된 동기 부여 작업에서 MTA는 거의 완벽한 성능을 보여 주었으며 4 x 1024 토큰 시퀀스의 작업에서 0.1%의 오류율 만 달성했습니다. 대조적으로, 표준 변압기 모델은 50%보다 큰 오류율을 나타냈다.
Further large-scale experiments involved an 880M-parameter model trained on 105 billion tokens using MTA and baseline architectures. MTA achieved superior validation perplexity scores across diverse datasets such as arXiv, GitHub, and Wikipedia.
추가 대규모 실험에는 MTA 및 기준 아키텍처를 사용하여 1,050 억 개의 토큰으로 훈련 된 880m 파라미터 모델이 포함되었습니다. MTA는 Arxiv, Github 및 Wikipedia와 같은 다양한 데이터 세트에서 우수한 검증 당도 점수를 달성했습니다.
MTA outperformed standard Transformer models in tasks requiring extended context comprehension, such as the Needle-in-the-Haystack and BabiLong benchmarks. In the Needle-in-the-Haystack task with 4K token contexts containing multiple needles, MTA achieved accuracies ranging from 67% to 97.6%, surpassing standard models by substantial margins. These results highlight the potential of MTA for enabling LLMs to efficiently process very long-range dependencies.
MTA는 바늘에있는 컨텍스트 이해가 필요한 작업에서 표준 변압기 모델을 능가했습니다. MTA는 여러 바늘을 포함하는 4K 토큰 컨텍스트를 갖춘 바늘 in-haystack 작업에서 67%에서 97.6% 범위의 정확성을 달성하여 상당한 마진에 의해 표준 모델을 능가했습니다. 이러한 결과는 LLM이 매우 장거리 종속성을 효율적으로 처리 할 수 있도록 MTA의 잠재력을 강조합니다.
In summary, Multi-Token Attention (MTA) presents a refined advancement in attention mechanisms by addressing fundamental limitations of traditional single-token attention. Leveraging convolutional operations to concurrently integrate multiple query-key interactions, MTA enhances the ability of language models to handle intricate contextual dependencies.
요약하면, MTA (Multi-Token Teneral)는 전통적인 단일 토닉의 기본 제한을 해결함으로써주의 메커니즘의 세련된 발전을 제시합니다. MTA는 다중 쿼리 키 상호 작용을 동시에 통합하기 위해 컨볼 루션 작업을 활용하여 복잡한 상황의 종속성을 처리 할 수있는 언어 모델의 능력을 향상시킵니다.
These methodological improvements facilitate more precise and efficient performance, particularly in scenarios involving complex token interactions and long-range contextual understanding. Through targeted modifications to standard attention mechanisms, MTA contributes meaningfully to the evolution of more sophisticated, accurate, and computationally efficient language models.
이러한 방법 론적 개선은 특히 복잡한 토큰 상호 작용과 장거리 상황 이해와 관련된 시나리오에서보다 정확하고 효율적인 성능을 촉진합니다. 표준주의 메커니즘에 대한 표적 수정을 통해 MTA는보다 정교하고 정확하며 계산적으로 효율적인 언어 모델의 진화에 의미있게 기여합니다.
부인 성명:info@kdj.com
제공된 정보는 거래 조언이 아닙니다. kdj.com은 이 기사에 제공된 정보를 기반으로 이루어진 투자에 대해 어떠한 책임도 지지 않습니다. 암호화폐는 변동성이 매우 높으므로 철저한 조사 후 신중하게 투자하는 것이 좋습니다!
본 웹사이트에 사용된 내용이 귀하의 저작권을 침해한다고 판단되는 경우, 즉시 당사(info@kdj.com)로 연락주시면 즉시 삭제하도록 하겠습니다.
-
-
-
-
-
-
-
-
-
- 1925-s 밀 페니
- 2025-04-06 12:20:13
- 1925-s 페니는 미국 민트가 페니 생산을 줄이고있는시기에 민트가 되었기 때문에 역사적으로 중요합니다.