$85279.472095 USD

2.85%

ethereum

$1623.747089 USD

4.76%

tether

$0.999695 USD

0.01%

xrp

$2.152776 USD

7.12%

bnb

$594.596385 USD

1.70%

solana

$132.613105 USD

10.41%

usd-coin

$0.999979 USD

0.01%

dogecoin

$0.166192 USD

4.93%

tron

$0.247529 USD

1.81%

cardano

$0.648978 USD

4.66%

unus-sed-leo

$9.360080 USD

0.33%

chainlink

$13.072736 USD

4.48%

avalanche

$20.382619 USD

7.90%

sui

$2.371121 USD

9.57%

stellar

$0.243619 USD

4.29%

Articles d’actualité sur les crypto-monnaies

La course à l'élargissement des modèles de grandes langues (LLMS) au-delà du seuil de million de tonnes a déclenché un débat féroce dans la communauté de l'IA.

Apr 13, 2025 at 03:30 am

Des modèles comme Minimax-Text-01 ont une capacité de 4 millions de millions, et Gemini 1.5 Pro peut traiter jusqu'à 2 millions de jetons simultanément.

The race to expand large language models (LLMs) beyond the million-token threshold has ignited a fierce debate in the AI community. Models like MiniMax's MiniMax-Text-01 boast a 4-million-token capacity, and Gemini 1.5 Pro can process up to 2 million tokens simultaneously, setting a new standard in parallel processing. These models now promise game-changing applications, like analyzing entire codebases, legal contracts or research papers in a single inference call.

La course à l'élargissement des modèles de grandes langues (LLMS) au-delà du seuil de million de tonnes a déclenché un débat féroce dans la communauté de l'IA. Des modèles tels que Minimax-Text-01 de MinimAx ont une capacité de 4 millions de token, et Gemini 1.5 Pro peut traiter jusqu'à 2 millions de jetons simultanément, établissant une nouvelle norme dans le traitement parallèle. Ces modèles promettent désormais des applications qui changent la donne, comme l'analyse des bases de code entières, des contrats juridiques ou des documents de recherche en un seul appel d'inférence.

At the core of this discussion is context length — the amount of text an AI model can process and also remember at once. A longer context window enables a machine learning (ML) model to handle much more information in a single request and reduces the need for chunking documents into sub-documents or splitting conversations. For context, a model with a 4-million-token capacity could digest 10,000 pages of books in one go.

Au cœur de cette discussion se trouve la durée du contexte - la quantité de texte qu'un modèle d'IA peut traiter et se souviendra également immédiatement. Une fenêtre de contexte plus longue permet à un modèle d'apprentissage automatique (ML) de gérer beaucoup plus d'informations dans une seule demande et réduit le besoin de secouer des documents dans des sous-documents ou de diviser les conversations. Pour le contexte, un modèle à une capacité de 4 millions de personnes pourrait digérer 10 000 pages de livres en une seule fois.

In theory, this should mean better comprehension and more sophisticated reasoning. But do these massive context windows translate to real-world business value?

En théorie, cela devrait signifier une meilleure compréhension et un raisonnement plus sophistiqué. Mais ces fenêtres de contexte massives se traduisent-elles par une valeur commerciale réelle?

As enterprises weigh the costs of scaling infrastructure against potential gains in productivity and accuracy, the question remains: Are we unlocking new frontiers in AI reasoning, or simply stretching the limits of token memory without meaningful improvements? This article examines the technical and economic trade-offs, benchmarking challenges and evolving enterprise workflows shaping the future of large-context LLMs.

Alors que les entreprises pèsent les coûts de la mise à l'échelle des infrastructures par rapport aux gains potentiels de productivité et de précision, la question demeure: débloquant-nous de nouvelles frontières dans le raisonnement de l'IA, ou étendant simplement les limites de la mémoire de jetons sans amélioration significative? Cet article examine les compromis techniques et économiques, les défis comparés et l'évolution des workflows d'entreprise façonnant l'avenir des LLM à grand contexte.

Why are AI companies racing to expand context lengths?

Pourquoi les entreprises d'IA courent-elles pour étendre les durées de contexte?

The promise of deeper comprehension, fewer hallucinations and more seamless interactions has led to an arms race among leading labs to expand context length.

La promesse d'une compréhension plus profonde, moins d'hallucinations et des interactions plus transparentes a conduit à une course aux armements parmi les principaux laboratoires pour étendre la longueur du contexte.

For enterprises, this means being able to analyze an entire legal contract to extract key clauses, debug a large codebase to identify bugs or summarize a lengthy research paper without breaking context.

Pour les entreprises, cela signifie pouvoir analyser un contrat juridique complet pour extraire des clauses clés, déboguer une grande base de code pour identifier les bogues ou résumer un long document de recherche sans casser le contexte.

The hope is that eliminating workarounds like chunking or retrieval-augmented generation (RAG) could make AI workflows smoother and more efficient.

L'espoir est que l'élimination des solutions de contournement comme le cordage ou la génération auprès de la récupération (RAG) pourrait rendre les flux de travail IA plus lisses et plus efficaces.

Solving the ‘needle-in-a-haystack’ problem

Résoudre le problème de «l'aiguille dans un haystack»

The "needle-in-a-haystack" problem refers to AI's difficulty in identifying critical information (needle) hidden within massive datasets (haystack). LLMs often miss key details, leading to inefficiencies.

Le problème de "l'aiguille dans un haystack" fait référence à la difficulté de l'IA d'identifier les informations critiques (aiguille) cachées dans des ensembles de données massifs (back de foin). Les LLM manquent souvent les détails clés, conduisant à des inefficacités.

Larger context windows help models retain more information and potentially reduce hallucinations. They also help in improving accuracy and enabling novel use cases:

Des fenêtres de contexte plus grandes aident les modèles à conserver plus d'informations et à réduire potentiellement les hallucinations. Ils aident également à améliorer la précision et à permettre de nouveaux cas d'utilisation:

Increasing the context window also helps the model better reference relevant details and reduces the likelihood of generating incorrect or fabricated information. A 2024 Stanford study found that 128K-token models exhibited an 18% lower hallucination rate compared to RAG systems when analyzing merger agreements.

L'augmentation de la fenêtre de contexte aide également le modèle à améliorer les détails pertinents et réduit la probabilité de générer des informations incorrectes ou fabriquées. Une étude de Stanford en 2024 a révélé que les modèles de 128k-token présentaient un taux d'hallucination inférieur de 18% par rapport aux systèmes de chiffon lors de l'analyse des accords de fusion.

However, early adopters have reported some challenges. For instance, JPMorgan Chase's research demonstrates how models perform poorly on approximately 75% of their context, with performance on complex financial tasks collapsing to nearly zero beyond 32K tokens. Models still broadly struggle with long-range recall, often prioritizing recent data over deeper insights.

Cependant, les premiers adoptants ont signalé certains défis. Par exemple, les recherches de JPMorgan Chase montrent comment les modèles fonctionnent mal sur environ 75% de leur contexte, les performances sur des tâches financières complexes s'effondrent à presque zéro au-delà des jetons 32K. Les modèles luttent encore largement avec le rappel à long terme, priorisant souvent les données récentes sur des informations plus profondes.

This raises questions: Does a 4-million-token window truly enhance reasoning, or is it just a costly expansion of memory? How much of this vast input does the model actually use? And do the benefits outweigh the rising computational costs?

Cela soulève des questions: une fenêtre de 4 millions de dollars améliore-t-elle vraiment le raisonnement, ou est-ce simplement une expansion coûteuse de mémoire? Quelle part de cette vaste entrée le modèle utilise-t-il réellement? Et les avantages l'emportent-ils sur la hausse des coûts de calcul?

What are the economic trade-offs of using RAG?

Quels sont les compromis économiques de l'utilisation du chiffon?

RAG combines the power of LLMs with a retrieval system to fetch relevant information from an external database or document store. This allows the model to generate responses based on both pre-existing knowledge and dynamically retrieved data.

RAG combine la puissance de LLMS avec un système de récupération pour récupérer les informations pertinentes à partir d'une base de données ou d'une boutique de documents externes. Cela permet au modèle de générer des réponses basées à la fois sur les connaissances préexistantes et les données récupérées dynamiquement.

As companies adopt LLMs for increasingly complex tasks, they face a critical decision: Use massive prompts with large context windows, or rely on RAG to fetch relevant information dynamically.

Alors que les entreprises adoptent les LLM pour des tâches de plus en plus complexes, elles sont confrontées à une décision critique: utilisez des invites massives avec de grandes fenêtres de contexte ou comptez sur le chiffon pour récupérer les informations pertinentes dynamiquement.

Comparing AI inference costs: Multi-step retrieval vs. large single prompts

Comparaison des coûts d'inférence de l'IA: récupération en plusieurs étapes vs grandes invites uniques

While large prompts offer the advantage of simplifying workflows into a single step, they require more GPU power and memory, rendering them costly at scale. In contrast, RAG-based approaches, despite requiring multiple retrieval and generation steps, often reduce overall token consumption, leading to lower inference costs without sacrificing accuracy.

Alors que les grandes invites offrent l'avantage de simplifier les flux de travail en une seule étape, ils nécessitent plus de puissance et de mémoire GPU, ce qui les rend coûteux à grande échelle. En revanche, les approches basées sur les chiffons, bien qu'ils nécessitent de multiples étapes de récupération et de production, réduisent souvent la consommation globale de jetons, entraînant une baisse des coûts d'inférence sans sacrifier la précision.

For most enterprises, the best approach depends on the use case:

Pour la plupart des entreprises, la meilleure approche dépend du cas d'utilisation:

A large context window is valuable when:

Une grande fenêtre de contexte est précieuse lorsque:

Per Google research, stock prediction models using 128K-token windows and 10 years of earnings transcripts outperformed RAG by 29%. On the other hand, GitHub Copilot's internal testing showed that tasks like monorepo migrations were completed 2.3x faster with large prompts compared to RAG.

Selon Google Research, les modèles de prédiction des actions utilisant des fenêtres de 128K et 10 ans de transcriptions de bénéfices ont surpassé le chiffon de 29%. D'un autre côté, les tests internes de GitHub Copilot ont montré que des tâches comme les migrations monorepo ont été achevées 2,3x plus rapidement avec de grandes invites par rapport au chiffon.

Breaking down the diminishing returns

Briser les rendements décroissants

The limits of large context models: Latency, costs and usability

Les limites des grands modèles de contexte: latence, les coûts et la convivialité

While large context models offer impressive capabilities, there are limits to how much extra context is truly beneficial. As context windows expand, three key factors come into play:

Bien que les grands modèles de contexte offrent des capacités impressionnantes, il existe des limites à la quantité de contexte supplémentaire vraiment bénéfique. À mesure que les fenêtres de contexte se développent, trois facteurs clés entrent en jeu:

Google's Infini-attention technique attempts to circumvent these trade-offs by storing compressed representations of arbitrary-length context within bounded memory. However, compression leads to information loss, and models struggle to balance immediate and historical information. This leads to performance degradations and

La technique de Google à l'attention infini tente de contourner ces compromis en stockant des représentations compressées du contexte de longueur arbitraire dans la mémoire limitée. Cependant, la compression entraîne une perte d'informations et les modèles ont du mal à équilibrer les informations immédiates et historiques. Cela conduit à des dégradations de performances et

Clause de non-responsabilité:info@kdj.com

Les informations fournies ne constituent pas des conseils commerciaux. kdj.com n’assume aucune responsabilité pour les investissements effectués sur la base des informations fournies dans cet article. Les crypto-monnaies sont très volatiles et il est fortement recommandé d’investir avec prudence après une recherche approfondie！

Si vous pensez que le contenu utilisé sur ce site Web porte atteinte à vos droits d’auteur, veuillez nous contacter immédiatement (info@kdj.com) et nous le supprimerons dans les plus brefs délais.

Autres articles publiés sur Apr 13, 2025

Plus