![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
암호화폐 뉴스 기사
Million-Token 임계 값을 넘어 LLM (Lange Language Models)을 확장하려는 경쟁은 AI 커뮤니티에서 치열한 논쟁을 불러 일으켰습니다.
2025/04/13 03:30
Minimax-Text-01과 같은 모델은 4 백만 명의 용량을 자랑하며 Gemini 1.5 Pro는 최대 2 백만 개의 토큰을 동시에 처리 할 수 있습니다.
The race to expand large language models (LLMs) beyond the million-token threshold has ignited a fierce debate in the AI community. Models like MiniMax's MiniMax-Text-01 boast a 4-million-token capacity, and Gemini 1.5 Pro can process up to 2 million tokens simultaneously, setting a new standard in parallel processing. These models now promise game-changing applications, like analyzing entire codebases, legal contracts or research papers in a single inference call.
Million-Token 임계 값을 넘어 LLM (Lange Language Models)을 확장하려는 경쟁은 AI 커뮤니티에서 치열한 논쟁을 불러 일으켰습니다. Minimax의 Minimax-Text-01과 같은 모델은 4 백만 명의 용량을 자랑하며 Gemini 1.5 Pro는 동시에 2 백만 개의 토큰을 동시에 처리하여 병렬 처리에서 새로운 표준을 설정할 수 있습니다. 이 모델은 이제 전체 코드베이스, 법적 계약 또는 연구 논문을 단일 추론 통화로 분석하는 것과 같은 게임 변화 응용 프로그램을 약속합니다.
At the core of this discussion is context length — the amount of text an AI model can process and also remember at once. A longer context window enables a machine learning (ML) model to handle much more information in a single request and reduces the need for chunking documents into sub-documents or splitting conversations. For context, a model with a 4-million-token capacity could digest 10,000 pages of books in one go.
이 논의의 핵심은 컨텍스트 길이입니다. AI 모델이 처리하고 기억할 수있는 텍스트의 양은 한 번에 기억할 수 있습니다. 더 긴 컨텍스트 창을 사용하면 기계 학습 (ML) 모델이 단일 요청에서 훨씬 더 많은 정보를 처리 할 수 있으며 문서를 하위 문서로 또는 대화를 분할해야 할 필요성을 줄입니다. 맥락에서, 4 백만짜리 용량의 모델은 한 번에 10,000 페이지의 책을 소화 할 수 있습니다.
In theory, this should mean better comprehension and more sophisticated reasoning. But do these massive context windows translate to real-world business value?
이론적으로 이것은 더 나은 이해력과 더 정교한 추론을 의미해야합니다. 그러나 이러한 거대한 맥락 창문이 실제 비즈니스 가치로 해석됩니까?
As enterprises weigh the costs of scaling infrastructure against potential gains in productivity and accuracy, the question remains: Are we unlocking new frontiers in AI reasoning, or simply stretching the limits of token memory without meaningful improvements? This article examines the technical and economic trade-offs, benchmarking challenges and evolving enterprise workflows shaping the future of large-context LLMs.
기업이 생산성과 정확성의 잠재적 이익에 대한 인프라 확장 비용을 무시함에 따라 문제는 여전히 남아 있습니다. AI 추론에서 새로운 국경을 잠금 해제하거나 단순히 의미있는 개선없이 토큰 메모리의 한계를 확장 하는가? 이 기사는 기술 및 경제 트레이드 오프, 벤치마킹 문제 및 진화하는 엔터프라이즈 워크 플로를 검토하여 대규모 텍스트 LLM의 미래를 형성합니다.
Why are AI companies racing to expand context lengths?
AI 회사가 컨텍스트 길이를 확장하기 위해 경주하는 이유는 무엇입니까?
The promise of deeper comprehension, fewer hallucinations and more seamless interactions has led to an arms race among leading labs to expand context length.
더 깊은 이해력, 더 적은 환각 및 더 원활한 상호 작용의 약속으로 인해 주요 실험실 사이에서 무기 경쟁이 발생하여 상황 길이를 확장했습니다.
For enterprises, this means being able to analyze an entire legal contract to extract key clauses, debug a large codebase to identify bugs or summarize a lengthy research paper without breaking context.
기업의 경우 이는 주요 조항을 추출하기 위해 전체 법적 계약을 분석하거나 대형 코드베이스를 디버깅하여 버그를 식별하거나 컨텍스트를 깨지 않고 긴 연구 논문을 요약 할 수 있음을 의미합니다.
The hope is that eliminating workarounds like chunking or retrieval-augmented generation (RAG) could make AI workflows smoother and more efficient.
희망은 청킹 또는 검색된 세대 (RAG)와 같은 해결 방법을 제거하면 AI 워크 플로를 더 매끄럽고 효율적으로 만들 수 있기를 바랍니다.
Solving the ‘needle-in-a-haystack’ problem
'바늘 in-a-haystack'문제 해결
The "needle-in-a-haystack" problem refers to AI's difficulty in identifying critical information (needle) hidden within massive datasets (haystack). LLMs often miss key details, leading to inefficiencies.
"바늘-a-haystack"문제는 대규모 데이터 세트 (Haystack) 내에 숨겨진 중요한 정보 (바늘)를 식별하는 데 AI의 어려움을 나타냅니다. LLM은 종종 주요 세부 사항을 놓치면서 비효율적입니다.
Larger context windows help models retain more information and potentially reduce hallucinations. They also help in improving accuracy and enabling novel use cases:
더 큰 컨텍스트 Windows는 모델이 더 많은 정보를 유지하고 환각을 줄이는 데 도움이됩니다. 또한 정확성을 향상시키고 새로운 사용 사례를 가능하게하는 데 도움이됩니다.
Increasing the context window also helps the model better reference relevant details and reduces the likelihood of generating incorrect or fabricated information. A 2024 Stanford study found that 128K-token models exhibited an 18% lower hallucination rate compared to RAG systems when analyzing merger agreements.
컨텍스트 창을 늘리면 모델이 더 나은 참조 관련 세부 정보를 얻을 수 있으며 잘못된 정보를 생성 할 가능성이 줄어 듭니다. 2024 Stanford 연구에 따르면 128K-Token 모델은 합병 계약을 분석 할 때 RAG 시스템에 비해 환각율이 18% 더 낮았습니다.
However, early adopters have reported some challenges. For instance, JPMorgan Chase's research demonstrates how models perform poorly on approximately 75% of their context, with performance on complex financial tasks collapsing to nearly zero beyond 32K tokens. Models still broadly struggle with long-range recall, often prioritizing recent data over deeper insights.
그러나 얼리 어답터는 몇 가지 도전을보고했습니다. 예를 들어, JPMorgan Chase의 연구는 컨텍스트의 약 75%에서 모델이 어떻게 제대로 작동하지 않으며, 복잡한 재무 작업에 대한 성능이 32k 토큰을 넘어서 거의 0으로 붕괴되는 방법을 보여줍니다. 모델은 여전히 장거리 리콜로 광범위하게 어려움을 겪고 있으며, 종종 더 깊은 통찰력보다 최근 데이터를 우선시합니다.
This raises questions: Does a 4-million-token window truly enhance reasoning, or is it just a costly expansion of memory? How much of this vast input does the model actually use? And do the benefits outweigh the rising computational costs?
이것은 질문을 제기합니다. 4 백만짜리 창이 실제로 추론을 향상 시키는가, 아니면 메모리의 비용이 많이 드는 것입니까? 모델이 실제로 사용하는이 방대한 입력 중 얼마입니까? 그리고 혜택이 증가하는 계산 비용보다 중요합니까?
What are the economic trade-offs of using RAG?
래그 사용의 경제적 인 트레이드 오프는 무엇입니까?
RAG combines the power of LLMs with a retrieval system to fetch relevant information from an external database or document store. This allows the model to generate responses based on both pre-existing knowledge and dynamically retrieved data.
RAG는 LLM의 전력을 검색 시스템과 결합하여 외부 데이터베이스 또는 문서 저장소에서 관련 정보를 가져옵니다. 이를 통해 모델은 기존 지식과 동적으로 검색된 데이터를 기반으로 응답을 생성 할 수 있습니다.
As companies adopt LLMs for increasingly complex tasks, they face a critical decision: Use massive prompts with large context windows, or rely on RAG to fetch relevant information dynamically.
기업은 점점 더 복잡한 작업을 위해 LLM을 채택함에 따라 큰 컨텍스트 창과 함께 대규모 프롬프트를 사용하거나 RAG에 의존하여 관련 정보를 동적으로 가져 오기 위해 중요한 결정에 직면합니다.
Comparing AI inference costs: Multi-step retrieval vs. large single prompts
AI 추론 비용 비교 : 다단계 검색 대 큰 단일 프롬프트
While large prompts offer the advantage of simplifying workflows into a single step, they require more GPU power and memory, rendering them costly at scale. In contrast, RAG-based approaches, despite requiring multiple retrieval and generation steps, often reduce overall token consumption, leading to lower inference costs without sacrificing accuracy.
대규모 프롬프트는 워크 플로를 단일 단계로 단순화하는 이점을 제공하지만 더 많은 GPU 전력 및 메모리가 필요하므로 규모로 비용이 많이 듭니다. 대조적으로, 래그 기반 접근법은 다중 검색 및 생성 단계가 필요했지만 종종 전체 토큰 소비를 줄여서 정확성을 희생하지 않고 추론 비용을 줄입니다.
For most enterprises, the best approach depends on the use case:
대부분의 기업의 경우 최상의 접근 방식은 사용 사례에 따라 다릅니다.
A large context window is valuable when:
큰 컨텍스트 창이 다음과 같이 가치가 있습니다.
Per Google research, stock prediction models using 128K-token windows and 10 years of earnings transcripts outperformed RAG by 29%. On the other hand, GitHub Copilot's internal testing showed that tasks like monorepo migrations were completed 2.3x faster with large prompts compared to RAG.
Google 리서치에 따르면 128K-Token Wind 한편, Github Copilot의 내부 테스트는 Monorepo 마이그레이션과 같은 작업이 RAG에 비해 큰 프롬프트로 2.3 배 더 빨리 완료된 것으로 나타났습니다.
Breaking down the diminishing returns
감소 된 수익을 무너 뜨립니다
The limits of large context models: Latency, costs and usability
대규모 상황 모델의 한계 : 대기 시간, 비용 및 유용성
While large context models offer impressive capabilities, there are limits to how much extra context is truly beneficial. As context windows expand, three key factors come into play:
큰 컨텍스트 모델은 인상적인 기능을 제공하지만 추가 컨텍스트가 얼마나 유익한 지에 대한 제한이 있습니다. 컨텍스트 Windows가 확장됨에 따라 세 가지 주요 요소가 작동합니다.
Google's Infini-attention technique attempts to circumvent these trade-offs by storing compressed representations of arbitrary-length context within bounded memory. However, compression leads to information loss, and models struggle to balance immediate and historical information. This leads to performance degradations and
Google의 인피니션 기술은 경계 메모리 내에 임의의 길이 컨텍스트의 압축 된 표현을 저장하여 이러한 트레이드 오프를 우회하려고 시도합니다. 그러나 압축은 정보 손실로 이어지고 모델은 즉각적이고 역사적 정보의 균형을 맞추기 위해 노력합니다. 이것은 성능 저하로 이어집니다
부인 성명:info@kdj.com
제공된 정보는 거래 조언이 아닙니다. kdj.com은 이 기사에 제공된 정보를 기반으로 이루어진 투자에 대해 어떠한 책임도 지지 않습니다. 암호화폐는 변동성이 매우 높으므로 철저한 조사 후 신중하게 투자하는 것이 좋습니다!
본 웹사이트에 사용된 내용이 귀하의 저작권을 침해한다고 판단되는 경우, 즉시 당사(info@kdj.com)로 연락주시면 즉시 삭제하도록 하겠습니다.