![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
Michael D. Kats
Nvidia's gargantuan Blackwell Ultra and upcoming Vera and Rubin CPUs and GPUs have certainly grabbed plenty of headlines at the corp's GPU Technology Conference this week. But arguably one of the most important announcements of the annual developer event wasn't a chip at all but rather a software framework called Dynamo, designed to tackle the challenges of AI inference at scale.
Nvidia의 Gargantuan Blackwell Ultra와 다가오는 Vera와 Rubin CPU 및 GPU는 이번 주 Corp의 GPU 기술 컨퍼런스에서 많은 헤드 라인을 잡았습니다. 그러나 연례 개발자 이벤트의 가장 중요한 발표 중 하나는 칩이 아니라 AI 추론의 규모에 따라 Dynamo라는 소프트웨어 프레임 워크가 아닙니다.
Announced on stage at GTC, it was described by CEO Jensen Huang as the "operating system of an AI factory," and drew comparisons to the real-world dynamo that kicked off an industrial revolution. "The dynamo was the first instrument that started the last industrial revolution," the chief exec said. "The industrial revolution of energy — water comes in, electricity comes out."
GTC의 무대에서 발표 된이 회사는 Jensen Huang CEO에 의해 "AI 공장의 운영 체제"로 묘사되었으며, 산업 혁명을 시작한 실제 다이너 모와 비교를 이끌었습니다. "Dynamo는 마지막 산업 혁명을 시작한 최초의 도구"라고 최고 임원은 말했다. "에너지의 산업 혁명 - 물이 들어오고 전기가 나옵니다."
At its heart, the open source inference suite is designed to better optimize inference engines such as TensorRT LLM, SGLang, and vLLM to run across large quantities of GPUs as quickly and efficiently as possible.
오픈 소스 추론 스위트는 텐소르 LLM, SGLANG 및 VLLM과 같은 추론 엔진을 더 잘 최적화하도록 설계되어 가능한 한 빠르고 효율적으로 대량의 GPU에 걸쳐 실행되도록 설계되었습니다.
As we've previously discussed, the faster and cheaper you can turn out token after token from a model, the better the experience for users.
앞에서 논의했듯이, 모델에서 토큰 후 토큰을 더 빠르고 저렴할수록 사용자에게는 더 나은 경험이 더 좋습니다.
Inference is harder than it looks
추론은 외모보다 어렵습니다
At a high level, LLM output performance can be broken into two broad categories: Prefill and decode. Prefill is dictated by how quickly the GPU's floating-point matrix math accelerators can process the input prompt. The longer the prompt — say, a summarization task — the longer this typically takes.
높은 수준에서 LLM 출력 성능은 프리 필과 디코딩의 두 가지 범주로 나눌 수 있습니다. Prefill은 GPU의 플로팅 포인트 매트릭스 수학 가속기가 입력 프롬프트를 얼마나 빨리 처리 할 수 있는지에 따라 결정됩니다. 프롬프트가 길수록 요약 작업이 길수록 일반적으로 더 오래 걸립니다.
Decode, on the other hand, is what most people associate with LLM performance, and equates to how quickly the GPUs can produce the actual tokens as a response to the user's prompt.
반면에 Decode는 대부분의 사람들이 LLM 성능과 연관되는 것이며 GPU가 사용자의 프롬프트에 대한 응답으로 실제 토큰을 얼마나 빨리 생성 할 수 있는지와 동일합니다.
So long as your GPU has enough memory to fit the model, decode performance is usually a function of how fast that memory is and how many tokens you're generating. A GPU with 8TB/s of memory bandwidth will churn out tokens more than twice as fast as one with 3.35TB/s.
GPU에 모델에 충분한 메모리가있는 한, 디코딩 성능은 일반적으로 메모리가 얼마나 빠르고 생성하는 토큰 수의 기능입니다. 8TB/s의 메모리 대역폭이있는 GPU는 3.35TB/s의 1보다 빠른 토큰을 두 배 이상 빠르게 휘젓습니다.
Where things start to get complicated is when you start looking at serving up larger models to more people with longer input and output sequences, like you might see in an AI research assistant or reasoning model.
상황이 복잡해지기 시작하는 곳은 AI 연구 조교 또는 추론 모델에서 볼 수있는 것처럼 더 긴 입력 및 출력 시퀀스를 가진 더 많은 사람들에게 더 큰 모델을 제공하기 시작할 때입니다.
Large models are typically distributed across multiple GPUs, and the way this is accomplished can have a major impact on performance and throughput, something Huang discussed at length during his keynote.
대형 모델은 일반적으로 여러 GPU에 배포되며,이 방법이 성능과 처리량에 큰 영향을 줄 수 있는데, 그의 기조 연설 중에 Huang이 오랫동안 논의되었습니다.
"Under the Pareto frontier are millions of points we could have configured the datacenter to do. We could have parallelized and split the work and sharded the work in a whole lot of different ways," he said.
"파레토 프론티어 아래에는 수백만의 점수가 데이터 센터를 구성 할 수있었습니다. 우리는 작업을 병렬화하고 나누고 작업을 다양한 방식으로 깎을 수있었습니다."
What he means is, depending on your model's parallelism you might be able to serve millions of concurrent users but only at 10 tokens a second each. Meanwhile another combination is only be able to serve a few thousand concurrent requests but generate hundreds of tokens in the blink of an eye.
그가 의미하는 바는, 모델의 병렬 처리에 따라 수백만 명의 동시 사용자에게 서비스를 제공 할 수 있지만 각각 10 개의 토큰에만 서비스를 제공 할 수 있다는 것입니다. 한편 또 다른 조합은 수천 개의 동시 요청을 제공 할 수 있지만 눈을 깜박이면서 수백 개의 토큰을 생성하는 것입니다.
According to Huang, if you can figure out where on this curve your workload delivers the ideal mix of individual performance while also achieving the maximum throughput possible, you'll be able to charge a premium for your service and also drive down operating costs. We imagine this is the balancing act at least some LLM providers perform when scaling up their generative applications and services to more and more customers.
Huang에 따르면,이 곡선의 위치를 파악할 수 있다면 워크로드가 개별 성능의 이상적인 혼합을 제공하는 동시에 가능한 최대 처리량을 달성하면 서비스에 대한 프리미엄을 청구하고 운영 비용을 낮출 수 있습니다. 우리는 이것이 최소한 일부 LLM 공급 업체가 생성 응용 프로그램과 서비스를 점점 더 많은 고객에게 확장 할 때 수행하는 밸런싱 행위라고 생각합니다.
Cranking the Dynamo
다이나모를 크랭크합니다
Finding this happy medium between performance and throughput is one the key capabilities offered by Dynamo, we're told.
성능과 처리량 사이 에서이 행복한 매체를 찾는 것은 Dynamo가 제공하는 핵심 기능 중 하나입니다.
In addition to providing users with insights as to what the ideal mix of expert, pipeline, or tensor parallelism might be, Dynamo disaggregates prefill and decode onto different accelerators.
Dynamo는 전문가, 파이프 라인 또는 텐서 병렬 처리의 이상적인 혼합이 무엇인지에 대한 통찰력을 사용자에게 제공하는 것 외에도 다른 가속기로 프리안을 해체하고 디코딩합니다.
According to Nvidia, a GPU planner within Dynamo determines how many accelerators should be dedicated to prefill and decode based on demand.
NVIDIA에 따르면 Dynamo의 GPU 플래너는 수요에 따라 많은 가속기를 선호하고 디코딩 해야하는 가속기를 결정합니다.
However, Dynamo isn't just a GPU profiler. The framework also includes prompt routing functionality, which identifies and directs overlapping requests to specific groups of GPUs to maximize the likelihood of a key-value (KV) cache hit.
그러나 Dynamo는 단순한 GPU 프로파일 러가 아닙니다. 프레임 워크에는 또한 신속한 라우팅 기능이 포함되어 있으며, 이는 KV (Key-Value) 캐시 히트의 가능성을 최대화하기 위해 특정 GPU 그룹에 중첩 요청을 식별하고 지시합니다.
If you're not familiar, the KV cache represents the state of the model at any given time. So, if multiple users ask similar questions in short order, the model can pull from this cache rather than recalculating the model state over and over again.
익숙하지 않은 경우 KV 캐시는 주어진 시간에 모델의 상태를 나타냅니다. 따라서 여러 사용자가 유사한 질문을 짧은 순서로 요청하면 모델 상태를 반복해서 다시 계산하지 않고이 캐시에서 모델을 가져올 수 있습니다.
Alongside the smart router, Dynamo also features a low-latency communication library to speed up GPU-to-GPU data flows, and a memory management subsystem that's responsible for pushing or pulling KV cache data from HBM to or from system memory or cold storage to maximize responsiveness and minimize wait times.
Dynamo는 스마트 라우터와 함께 GPU-to-GPU 데이터 흐름 속도를 높이기위한 저도의 통신 통신 라이브러리와 HBM에서 KV 캐시 데이터를 시스템 메모리 또는 콜드 스토리지로 푸시하거나 콜드 스토리지로 밀거나 대기 시간을 최소화하는 메모리 관리 서브 시스템을 갖추고 있습니다.
For Hopper-based systems running Llama models, Nvidia claims Dynamo can effectively double the inference performance. Meanwhile for larger Blackwell NVL72 systems, the GPU giant claims a 30x advantage in DeepSeek-R1 over Hopper with the framework enabled.
Llama 모델을 실행하는 호퍼 기반 시스템의 경우 Nvidia는 Dynamo가 추론 성능을 효과적으로 두 배로 늘릴 수 있다고 주장합니다. 한편 더 큰 Blackwell NVL72 시스템의 경우 GPU 대기업은 프레임 워크가 활성화 된 Hopper보다 DeepSeek-R1에서 30 배의 이점을 주장합니다.
Broad compatibility
광범위한 호환성
While Dynamo is obviously tuned for Nvidia's hardware and software stacks, much like the Triton Inference Server it replaces, the framework is designed to integrate with popular software libraries for model serving, like vLLM, PyTorch, and SGLang.
Dynamo는 NVIDIA의 하드웨어 및 소프트웨어 스택을 위해 분명히 조정되었지만 Triton 추론 서버와 마찬가지로 Framework는 VLLM, Pytorch 및 Sglang과 같은 모델 서빙을 위해 인기있는 소프트웨어 라이브러리와 통합하도록 설계되었습니다.
This means, if you
이것은 당신을 의미합니다
부인 성명:info@kdj.com
제공된 정보는 거래 조언이 아닙니다. kdj.com은 이 기사에 제공된 정보를 기반으로 이루어진 투자에 대해 어떠한 책임도 지지 않습니다. 암호화폐는 변동성이 매우 높으므로 철저한 조사 후 신중하게 투자하는 것이 좋습니다!
본 웹사이트에 사용된 내용이 귀하의 저작권을 침해한다고 판단되는 경우, 즉시 당사(info@kdj.com)로 연락주시면 즉시 삭제하도록 하겠습니다.
-
- Meme Coin 구매 시즌이 도착한 이유
- 2025-03-26 11:30:11
- 시장 감정은 밈 동전 성능에서 큰 역할을합니다. 역사적으로, 세 가지 조건이 정렬되면 밈 동전이 폭발합니다.
-
-
-
-
-
- 어제 기사에서 나는 다음과 같은 관점을 표현했다.
- 2025-03-26 11:20:12
- 암호화 생태계 투자에서 장기적, 지속적이며 안정적인 수익을 달성하기 위해
-
- RWA (실제 자산) 연구소
- 2025-03-26 11:15:12
- 2025 년 3 월 24 일, Shenzhen은 실제 자산 (RWA)에 중점을 둔 업계 행사를 개최 할 예정입니다.
-
-