$85164.293495 USD

0.46%

ethereum

$1631.626805 USD

-0.06%

tether

$0.999902 USD

0.05%

xrp

$2.140262 USD

-0.29%

bnb

$585.593727 USD

-0.75%

solana

$129.553695 USD

-2.38%

usd-coin

$0.999953 USD

0.01%

tron

$0.252961 USD

-2.17%

dogecoin

$0.159379 USD

-3.88%

cardano

$0.637759 USD

-1.07%

unus-sed-leo

$9.434465 USD

0.10%

avalanche

$19.984115 USD

-0.50%

chainlink

$12.624915 USD

-1.61%

stellar

$0.241348 USD

0.09%

toncoin

$2.899684 USD

1.82%

Articles d’actualité sur les crypto-monnaies

Présentation du décodage spéculatif, API par lots asynchrones et soutien élargi Lora aux travailleurs AI

Apr 11, 2025 at 09:00 pm

Au cours des derniers trimestres, notre équipe des travailleurs de l'IA a cessé d'améliorer la qualité de notre plate-forme, travaillant sur diverses améliorations de routage

Since the launch of Workers AI in September, our mission has been to make inference accessible to everyone. Over the last few quarters, our Workers AI team has been heads down on improving the quality of our platform, working on various routing improvements, GPU optimizations, and capacity management improvements. Managing a distributed inference platform is not a simple task, but distributed systems are also what we do best. You’ll notice a recurring theme from all these announcements that has always been part of the core Cloudflare ethos — we try to solve problems through clever engineering so that we are able to do more with less.

Depuis le lancement des travailleurs de l'IA en septembre, notre mission a été de rendre l'inférence accessible à tous. Au cours des derniers trimestres, notre équipe d'IA des travailleurs a cessé d'améliorer la qualité de notre plate-forme, travaillant sur diverses améliorations de routage, optimisations GPU et améliorations de la gestion des capacités. La gestion d'une plate-forme d'inférence distribuée n'est pas une tâche simple, mais les systèmes distribués sont également ce que nous faisons le mieux. Vous remarquerez un thème récurrent de toutes ces annonces qui a toujours fait partie de l'éthique de base de Cloudflare - nous essayons de résoudre des problèmes grâce à l'ingénierie intelligente afin que nous puissions en faire plus avec moins.

Today, we’re excited to introduce speculative decoding to bring you faster inference, an asynchronous batch API for large workloads, and expanded LoRA support for more customized responses. Lastly, we’ll be recapping some of our newly added models, updated pricing, and unveiling a new dashboard to round out the usability of the platform.

Aujourd'hui, nous sommes ravis d'introduire un décodage spéculatif pour vous apporter une inférence plus rapide, une API par lots asynchrones pour les grandes charges de travail et un support LORA élargi pour des réponses plus personnalisées. Enfin, nous récapitulerons certains de nos modèles nouvellement ajoutés, les prix mis à jour et le dévoilement d'un nouveau tableau de bord pour compléter la convivialité de la plate-forme.

Speeding up inference by 2-4x with speculative decoding and more

Accélérer l'inférence de 2-4x avec décodage spéculatif et plus

We’re excited to be rolling out speed improvements to models in our catalog, starting with the Llama 3.3 70b model. These improvements include speculative decoding, prefix caching, an updated inference backend, and more. We’ve previously done a technical deep dive on speculative decoding and how we’re making Workers AI faster, which you can read about here. With these changes, we’ve been able to improve inference times by 2-4x, without any significant change to the quality of answers generated. We’re planning to incorporate these improvements into more models in the future as we release them. Today, we’re starting to roll out these changes so all Workers AI users of @cf/meta/llama-3.3-70b-instruct-fp8-fast will enjoy this automatic speed boost.

Nous sommes ravis de déployer des améliorations de la vitesse aux modèles dans notre catalogue, en commençant par le modèle LLAMA 3.3 70b. Ces améliorations incluent le décodage spéculatif, la mise en cache des préfixes, un backend d'inférence mis à jour, etc. Nous avons précédemment fait une plongée technique en profondeur sur le décodage spéculatif et comment nous rendons les travailleurs IA plus rapidement, ce que vous pouvez lire ici. Avec ces changements, nous avons été en mesure d'améliorer les temps d'inférence de 2-4x, sans aucun changement significatif de la qualité des réponses générées. Nous prévoyons d'incorporer ces améliorations dans plus de modèles à l'avenir lorsque nous les publions. Aujourd'hui, nous commençons à déployer ces modifications afin que tous les travailleurs aiment des utilisateurs de @ cf / meta / llama-3.3-70b-instruct-fp8-fast profiteront de cette augmentation automatique de la vitesse.

What is speculative decoding?

Qu'est-ce que le décodage spéculatif?

The way LLMs work is by generating text by predicting the next token in a sentence given the previous tokens. Typically, an LLM is able to predict a single future token (n+1) with one forward pass through the model. These forward passes can be computationally expensive, since they need to work through all the parameters of a model to generate one token (e.g., 70 billion parameters for Llama 3.3 70b).

Le fonctionnement des LLMS consiste à générer du texte en prédisant le jeton suivant dans une phrase donnée par les jetons précédents. En règle générale, un LLM est capable de prédire un seul futur jeton (N + 1) avec un passage vers l'avant à travers le modèle. Ces passes avant peuvent être coûteuses en calcul, car elles doivent travailler à travers tous les paramètres d'un modèle pour générer un jeton (par exemple, 70 milliards de paramètres pour LLAMA 3.3 70b).

With speculative decoding, we put a small model (known as the draft model) in front of the original model that helps predict n+x future tokens. The draft model generates a subset of candidate tokens, and the original model just has to evaluate and confirm if they should be included in the generation. Evaluating tokens is less computationally expensive, as the model can evaluate multiple tokens concurrently in a forward pass. As such, inference times can be sped up by 2-4x — meaning that users can get responses much faster.

Avec le décodage spéculatif, nous avons mis un petit modèle (connu sous le nom de modèle de projet) devant le modèle d'origine qui aide à prédire les futurs jetons N + X. Le modèle de projet génère un sous-ensemble de jetons candidats, et le modèle d'origine n'a qu'à évaluer et à confirmer s'ils doivent être inclus dans la génération. L'évaluation des jetons est moins coûteuse en calcul, car le modèle peut évaluer plusieurs jetons simultanément dans une passe avant. En tant que tels, les temps d'inférence peuvent être accélérés par 2-4x - ce qui signifie que les utilisateurs peuvent obtenir des réponses beaucoup plus rapidement.

What makes speculative decoding particularly efficient is that it’s able to use unused GPU compute left behind due to the GPU memory bottleneck LLMs create. Speculative decoding takes advantage of this unused compute by squeezing in a draft model to generate tokens faster. This means we’re able to improve the utilization of our GPUs by using them to their full extent without having parts of the GPU sit idle.

Ce qui rend le décodage spéculatif particulièrement efficace, c'est qu'il est capable d'utiliser un calcul de GPU inutilisé laissé derrière en raison de la création de LLMS GPU à mémoire de mémoire GPU. Le décodage spéculatif tire parti de ce calcul inutilisé en se pressant dans un modèle de projet pour générer des jetons plus rapidement. Cela signifie que nous sommes en mesure d'améliorer l'utilisation de nos GPU en les utilisant dans leur mesure sans que des parties du GPU soient inactives.

What is prefix caching?

Qu'est-ce que la mise en cache des préfixes?

With LLMs, there are usually two stages of generation — the first is known as “pre-fill”, which processes the user’s input tokens such as the prompt and context. Prefix caching is aimed at reducing the pre-fill time of a request. As an example, if you were asking a model to generate code based on a given file, you might insert the whole file into the context window of a request. Then, if you want to make a second request to generate the next line of code, you might send us the whole file again in the second request. Prefix caching allows us to cache the pre-fill tokens so we don’t have to process the context twice. With the same example, we would only do the pre-fill stage once for both requests, rather than doing it per request. This method is especially useful for requests that reuse the same context, such as Retrieval Augmented Generation (RAG), code generation, chatbots with memory, and more. Skipping the pre-fill stage for similar requests means faster responses for our users and more efficient usage of resources.

Avec les LLM, il y a généralement deux étapes de génération - la première est connue sous le nom de «pré-remplissage», qui traite les jetons d'entrée de l'utilisateur tels que l'invite et le contexte. La mise en cache des préfixes vise à réduire le temps de remplissage d'une demande. Par exemple, si vous demandiez à un modèle de générer du code basé sur un fichier donné, vous pouvez insérer le fichier entier dans la fenêtre de contexte d'une demande. Ensuite, si vous souhaitez faire une deuxième demande pour générer la ligne de code suivante, vous pouvez nous envoyer à nouveau le fichier entier dans la deuxième demande. La mise en cache de préfixe nous permet de mettre en cache les jetons avant le remplissage, nous n'avons donc pas à traiter le contexte deux fois. Avec le même exemple, nous ne ferions que la phase de pré-remplissage qu'une seule fois pour les deux demandes, plutôt que de le faire par demande. Cette méthode est particulièrement utile pour les demandes qui réutilisent le même contexte, telles que la génération augmentée (RAG) de récupération, la génération de code, les chatbots avec mémoire, etc. Sauter l'étape de pré-remplissage pour des demandes similaires signifie des réponses plus rapides pour nos utilisateurs et une utilisation plus efficace des ressources.

How did you validate that quality is preserved through these optimizations?

Comment avez-vous validé cette qualité conservée grâce à ces optimisations?

Since this is an in-place update to an existing model, we were particularly cautious in ensuring that we would not break any existing applications with this update. We did extensive A/B testing through a blind arena with internal employees to validate the model quality, and we asked internal and external customers to test the new version of the model to ensure that response formats were compatible and model quality was acceptable. Our testing concluded that the model performed up to standards, with people being extremely excited about the speed of the model. Most LLMs are not perfectly deterministic even with the same set of inputs, but if you do notice something

Puisqu'il s'agit d'une mise à jour sur place d'un modèle existant, nous avons été particulièrement prudents pour garantir que nous ne rompons aucune application existante avec cette mise à jour. Nous avons effectué de nombreux tests A / B via une arène aveugle avec des employés internes pour valider la qualité du modèle, et nous avons demandé aux clients internes et externes de tester la nouvelle version du modèle pour nous assurer que les formats de réponse étaient compatibles et que la qualité du modèle était acceptable. Nos tests ont conclu que le modèle avait effectué des normes, les gens étant extrêmement enthousiasmés par la vitesse du modèle. La plupart des LLM ne sont pas parfaitement déterministes même avec le même ensemble d'entrées, mais si vous remarquez quelque chose

Clause de non-responsabilité:info@kdj.com

Les informations fournies ne constituent pas des conseils commerciaux. kdj.com n’assume aucune responsabilité pour les investissements effectués sur la base des informations fournies dans cet article. Les crypto-monnaies sont très volatiles et il est fortement recommandé d’investir avec prudence après une recherche approfondie！

Si vous pensez que le contenu utilisé sur ce site Web porte atteinte à vos droits d’auteur, veuillez nous contacter immédiatement (info@kdj.com) et nous le supprimerons dans les plus brefs délais.

Autres articles publiés sur Apr 15, 2025

Plus