![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
지난 몇 분기 동안 우리의 노동자 AI 팀은 플랫폼의 품질 향상, 다양한 라우팅 개선을 위해 노력하고 있습니다.
Since the launch of Workers AI in September, our mission has been to make inference accessible to everyone. Over the last few quarters, our Workers AI team has been heads down on improving the quality of our platform, working on various routing improvements, GPU optimizations, and capacity management improvements. Managing a distributed inference platform is not a simple task, but distributed systems are also what we do best. You’ll notice a recurring theme from all these announcements that has always been part of the core Cloudflare ethos — we try to solve problems through clever engineering so that we are able to do more with less.
9 월에 노동자 AI가 출시 된 이후, 우리의 임무는 모든 사람이 추론을 이용할 수 있도록하는 것이 었습니다. 지난 몇 분기 동안 우리의 노동자 AI 팀은 플랫폼의 품질 개선, 다양한 라우팅 개선, GPU 최적화 및 용량 관리 개선을 위해 노력하고 있습니다. 분산 추론 플랫폼을 관리하는 것은 간단한 작업이 아니지만 분산 시스템도 최선을 다합니다. 항상 핵심 CloudFlare 정신의 일부인이 모든 공지 사항에서 되풀이되는 주제를 알 수 있습니다. 우리는 영리한 엔지니어링을 통해 문제를 해결하여 더 적게 할 수 있도록 노력합니다.
Today, we’re excited to introduce speculative decoding to bring you faster inference, an asynchronous batch API for large workloads, and expanded LoRA support for more customized responses. Lastly, we’ll be recapping some of our newly added models, updated pricing, and unveiling a new dashboard to round out the usability of the platform.
오늘날, 우리는 투기 디코딩을 도입하여 더 빠른 추론, 대규모 워크로드를위한 비동기 배치 API,보다 맞춤형 응답에 대한 LORA 지원을 확장하게되어 기쁩니다. 마지막으로, 새로 추가 된 모델, 가격 책정 업데이트 및 새로운 대시 보드를 공개하여 플랫폼의 유용성을 완성 할 것입니다.
Speeding up inference by 2-4x with speculative decoding and more
투기 디코딩 등으로 2-4 배의 추론 속도
We’re excited to be rolling out speed improvements to models in our catalog, starting with the Llama 3.3 70b model. These improvements include speculative decoding, prefix caching, an updated inference backend, and more. We’ve previously done a technical deep dive on speculative decoding and how we’re making Workers AI faster, which you can read about here. With these changes, we’ve been able to improve inference times by 2-4x, without any significant change to the quality of answers generated. We’re planning to incorporate these improvements into more models in the future as we release them. Today, we’re starting to roll out these changes so all Workers AI users of @cf/meta/llama-3.3-70b-instruct-fp8-fast will enjoy this automatic speed boost.
LLAMA 3.3 70B 모델로 시작하여 카탈로그의 모델에 대한 속도 향상을 시작하게되어 기쁩니다. 이러한 개선에는 투기 디코딩, 접두사 캐싱, 업데이트 된 추론 백엔드 등이 포함됩니다. 우리는 이전에 투기 디코딩에 대한 기술적 인 다이빙과 우리가 작업자를 더 빨리 만드는 방법에 대한 기술적 인 다이빙을 해왔으며 여기에서 읽을 수 있습니다. 이러한 변화로 인해 생성 된 답변의 품질에 대한 상당한 변화없이 추론 시간을 2-4 배 향상시킬 수있었습니다. 우리는 이러한 개선 사항을 앞으로 더 많은 모델에 통합 할 계획입니다. 오늘, 우리는 이러한 변경 사항을 출시하기 시작하여 모든 근로자 AI @CF/Meta/LLAMA-3.3-70B-Instruct-FP8-Fast 가이 자동 속도 향상을 누릴 수 있습니다.
What is speculative decoding?
투기 디코딩이란 무엇입니까?
The way LLMs work is by generating text by predicting the next token in a sentence given the previous tokens. Typically, an LLM is able to predict a single future token (n+1) with one forward pass through the model. These forward passes can be computationally expensive, since they need to work through all the parameters of a model to generate one token (e.g., 70 billion parameters for Llama 3.3 70b).
LLMS가 작동하는 방식은 이전 토큰이 주어진 문장에서 다음 토큰을 예측하여 텍스트를 생성하는 것입니다. 일반적으로 LLM은 모델을 통해 하나의 전방 패스로 단일 미래의 토큰 (n+1)을 예측할 수 있습니다. 이 전달 패스는 모델의 모든 매개 변수를 통해 하나의 토큰 (예 : LLAMA 3.3 70B의 70 억 매개 변수)을 생성해야하기 때문에 계산 비용이 많이들 수 있습니다.
With speculative decoding, we put a small model (known as the draft model) in front of the original model that helps predict n+x future tokens. The draft model generates a subset of candidate tokens, and the original model just has to evaluate and confirm if they should be included in the generation. Evaluating tokens is less computationally expensive, as the model can evaluate multiple tokens concurrently in a forward pass. As such, inference times can be sped up by 2-4x — meaning that users can get responses much faster.
투기 디코딩을 통해 N+X 미래 토큰을 예측하는 데 도움이되는 원래 모델 앞에 작은 모델 (초안 모델)을 넣었습니다. 드래프트 모델은 후보 토큰의 하위 집합을 생성하며, 원래 모델은 생성에 포함되어야하는지 평가하고 확인하면됩니다. 모델이 전방 패스에서 동시에 여러 토큰을 동시에 평가할 수 있으므로 토큰 평가는 계산 비용이 적습니다. 따라서 추론 시간은 2-4x로 급증 할 수 있습니다. 즉, 사용자가 훨씬 더 빨리 응답을 얻을 수 있습니다.
What makes speculative decoding particularly efficient is that it’s able to use unused GPU compute left behind due to the GPU memory bottleneck LLMs create. Speculative decoding takes advantage of this unused compute by squeezing in a draft model to generate tokens faster. This means we’re able to improve the utilization of our GPUs by using them to their full extent without having parts of the GPU sit idle.
투기 디코딩을 특히 효율적으로 만드는 것은 GPU 메모리 병목 현상 LLM 생성으로 인해 남은 사용되지 않은 GPU 컴퓨팅을 사용할 수 있다는 것입니다. 투기 디코딩은 초안 모델을 짜서 토큰을 더 빨리 생성하여 사용하지 않는 컴퓨팅을 이용합니다. 이는 GPU의 일부를 유휴 상태로 사용하지 않고 GPU의 활용을 최대한 활용하여 활용을 개선 할 수 있음을 의미합니다.
What is prefix caching?
접두사 캐싱이란 무엇입니까?
With LLMs, there are usually two stages of generation — the first is known as “pre-fill”, which processes the user’s input tokens such as the prompt and context. Prefix caching is aimed at reducing the pre-fill time of a request. As an example, if you were asking a model to generate code based on a given file, you might insert the whole file into the context window of a request. Then, if you want to make a second request to generate the next line of code, you might send us the whole file again in the second request. Prefix caching allows us to cache the pre-fill tokens so we don’t have to process the context twice. With the same example, we would only do the pre-fill stage once for both requests, rather than doing it per request. This method is especially useful for requests that reuse the same context, such as Retrieval Augmented Generation (RAG), code generation, chatbots with memory, and more. Skipping the pre-fill stage for similar requests means faster responses for our users and more efficient usage of resources.
LLM의 경우 일반적으로 두 가지 단계의 세대가 있습니다. 첫 번째 단계는 "Pre-Fill"으로 알려져 있으며, 이는 프롬프트 및 컨텍스트와 같은 사용자의 입력 토큰을 처리합니다. 접두사 캐싱은 요청의 사전 요금 시간을 줄이는 것을 목표로합니다. 예를 들어, 주어진 파일을 기반으로 코드를 생성하도록 모델에 요청하는 경우 전체 파일을 요청의 컨텍스트 창에 삽입 할 수 있습니다. 그런 다음 다음 코드 줄을 생성하기 위해 두 번째 요청을하려면 두 번째 요청에서 전체 파일을 다시 보낼 수 있습니다. Prefix 캐싱을 사용하면 사전 충전 토큰을 캐시 할 수 있으므로 컨텍스트를 두 번 처리 할 필요가 없습니다. 같은 예를 들어, 우리는 요청 당 지불하는 대신 두 요청에 대해 한 번만 미리 필기 단계를 수행합니다. 이 방법은 특히 검색 증강 생성 (RAG), 코드 생성, 메모리가있는 챗봇 등과 같은 동일한 컨텍스트를 재사용하는 요청에 특히 유용합니다. 유사한 요청에 대한 사전 충전 단계를 건너 뛰면 사용자에 대한 응답이 빠르고보다 효율적인 리소스 사용을 의미합니다.
How did you validate that quality is preserved through these optimizations?
이러한 최적화를 통해 품질이 보존 된 것을 어떻게 검증 했습니까?
Since this is an in-place update to an existing model, we were particularly cautious in ensuring that we would not break any existing applications with this update. We did extensive A/B testing through a blind arena with internal employees to validate the model quality, and we asked internal and external customers to test the new version of the model to ensure that response formats were compatible and model quality was acceptable. Our testing concluded that the model performed up to standards, with people being extremely excited about the speed of the model. Most LLMs are not perfectly deterministic even with the same set of inputs, but if you do notice something
이것은 기존 모델에 대한 내 업데이트 이므로이 업데이트로 기존 응용 프로그램을 중단하지 않도록주의를 기울였습니다. 우리는 모델 품질을 검증하기 위해 내부 직원과 함께 맹인 경기장을 통해 광범위한 A/B 테스트를 수행했으며, 내부 및 외부 고객에게 응답 형식이 호환되고 모델 품질이 허용되도록 새로운 버전의 모델을 테스트하도록 요청했습니다. 우리의 테스트는 모델이 표준에 따라 수행되었으며 사람들은 모델의 속도에 대해 매우 흥분하고 있다고 결론지었습니다. 대부분의 LLM은 동일한 입력 세트로도 완벽하게 결정적이지 않지만 무언가를 발견하면
부인 성명:info@kdj.com
제공된 정보는 거래 조언이 아닙니다. kdj.com은 이 기사에 제공된 정보를 기반으로 이루어진 투자에 대해 어떠한 책임도 지지 않습니다. 암호화폐는 변동성이 매우 높으므로 철저한 조사 후 신중하게 투자하는 것이 좋습니다!
본 웹사이트에 사용된 내용이 귀하의 저작권을 침해한다고 판단되는 경우, 즉시 당사(info@kdj.com)로 연락주시면 즉시 삭제하도록 하겠습니다.
-
-
- M2 화폐 공급이 다시 상승하기 시작했습니다.
- 2025-04-15 22:05:13
- 역사적 시장 패턴은 M2 화폐 공급 지수와 비트 코인 가격 지수 사이에 상관 관계가 있음을 시사합니다.
-
-
-
-
-
-
-