|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
NVIDIA 最新的 GH200 NVL32 系统展示了首次令牌时间 (TTFT) 性能的显着飞跃,满足了 Llama 3.1 和 3.2 等大型语言模型 (LLM) 不断增长的需求。
NVIDIA's latest GH200 NVL32 system demonstrates a remarkable leap in time-to-first-token (TTFT) performance, addressing the growing needs of large language models (LLMs) such as Llama 3.1 and 3.2. According to the NVIDIA Technical Blog, this system is set to significantly impact real-time applications like interactive speech bots and coding assistants.
NVIDIA 最新的 GH200 NVL32 系统展示了首次令牌时间 (TTFT) 性能的显着飞跃,满足了 Llama 3.1 和 3.2 等大型语言模型 (LLM) 不断增长的需求。据 NVIDIA 技术博客称,该系统将对交互式语音机器人和编码助手等实时应用产生重大影响。
TTFT is the time it takes for an LLM to process a user prompt and begin generating a response. As LLMs grow in complexity, with models like Llama 3.1 now featuring hundreds of billions of parameters, the need for faster TTFT becomes critical. This is particularly true for applications requiring immediate responses, such as AI-driven customer support and digital assistants.
TTFT 是法学硕士处理用户提示并开始生成响应所需的时间。随着 LLM 的复杂性不断增加,Llama 3.1 等模型现在具有数千亿个参数,对更快 TTFT 的需求变得至关重要。对于需要立即响应的应用程序尤其如此,例如人工智能驱动的客户支持和数字助理。
NVIDIA's GH200 NVL32 system, powered by 32 NVIDIA GH200 Grace Hopper Superchips and connected via the NVLink Switch system, is designed to meet these demands. The system leverages TensorRT-LLM improvements to deliver outstanding TTFT for long-context inference, making it ideal for the latest Llama 3.1 models.
NVIDIA 的 GH200 NVL32 系统由 32 个 NVIDIA GH200 Grace Hopper 超级芯片提供支持,并通过 NVLink 交换机系统连接,旨在满足这些需求。该系统利用 TensorRT-LLM 改进为长上下文推理提供出色的 TTFT,使其成为最新 Llama 3.1 模型的理想选择。
Applications like AI speech bots and digital assistants require TTFT in the range of a few hundred milliseconds to simulate natural, human-like conversations. For instance, a TTFT of half a second is significantly more user-friendly than a TTFT of five seconds. Fast TTFT is particularly crucial for services that rely on up-to-date information, such as agentic workflows that use Retrieval-Augmented Generation (RAG) to enhance LLM prompts with relevant data.
人工智能语音机器人和数字助理等应用需要几百毫秒范围内的 TTFT 来模拟自然的、类人的对话。例如,半秒的 TTFT 比 5 秒的 TTFT 更加用户友好。快速 TTFT 对于依赖最新信息的服务尤其重要,例如使用检索增强生成 (RAG) 来通过相关数据增强 LLM 提示的代理工作流程。
The NVIDIA GH200 NVL32 system achieves the fastest published TTFT for Llama 3.1 models, even with extensive context lengths. This performance is essential for real-time applications that demand quick and accurate responses.
NVIDIA GH200 NVL32 系统为 Llama 3.1 模型实现了最快的已发布 TTFT,即使上下文长度很长。这种性能对于需要快速、准确响应的实时应用程序至关重要。
The GH200 NVL32 system connects 32 NVIDIA GH200 Grace Hopper Superchips, each combining an NVIDIA Grace CPU and an NVIDIA Hopper GPU via NVLink-C2C. This setup allows for high-bandwidth, low-latency communication, essential for minimizing synchronization time and maximizing compute performance. The system delivers up to 127 petaFLOPs of peak FP8 AI compute, significantly reducing TTFT for demanding models with long contexts.
GH200 NVL32 系统连接 32 个 NVIDIA GH200 Grace Hopper 超级芯片,每个芯片通过 NVLink-C2C 结合了 NVIDIA Grace CPU 和 NVIDIA Hopper GPU。此设置可实现高带宽、低延迟通信,这对于最小化同步时间和最大化计算性能至关重要。该系统可提供高达 127 petaFLOPs 的峰值 FP8 AI 计算,显着降低具有长上下文的高要求模型的 TTFT。
For example, the system can achieve a TTFT of just 472 milliseconds for Llama 3.1 70B with an input sequence length of 32,768 tokens. Even for more complex models like Llama 3.1 405B, the system provides a TTFT of about 1.6 seconds using a 32,768-token input.
例如,对于输入序列长度为 32,768 个令牌的 Llama 3.1 70B,系统可以实现仅为 472 毫秒的 TTFT。即使对于 Llama 3.1 405B 等更复杂的模型,系统也可以使用 32,768 个令牌输入提供约 1.6 秒的 TTFT。
Inference continues to be a hotbed of innovation, with advancements in serving techniques, runtime optimizations, and more. Techniques like in-flight batching, speculative decoding, and FlashAttention are enabling more efficient and cost-effective deployments of powerful AI models.
随着服务技术、运行时优化等方面的进步,推理仍然是创新的温床。飞行中批处理、推测性解码和 FlashAttention 等技术可实现更高效、更具成本效益的强大 AI 模型部署。
NVIDIA's accelerated computing platform, supported by a vast ecosystem of developers and a broad installed base of GPUs, is at the forefront of these innovations. The platform's compatibility with the CUDA programming model and deep engagement with the developer community ensure rapid advancements in AI capabilities.
NVIDIA 的加速计算平台得到了庞大的开发者生态系统和广泛的 GPU 安装基础的支持,处于这些创新的前沿。该平台与CUDA编程模型的兼容性以及与开发者社区的深入参与确保了AI能力的快速进步。
Looking ahead, the NVIDIA Blackwell GB200 NVL72 platform promises even greater advancements. With second-generation Transformer Engine and fifth-generation Tensor Cores, Blackwell delivers up to 20 petaFLOPs of FP4 AI compute, significantly enhancing performance. The platform's fifth-generation NVLink provides 1,800 GB/s of GPU-to-GPU bandwidth, expanding the NVLink domain to 72 GPUs.
展望未来,NVIDIA Blackwell GB200 NVL72 平台有望取得更大的进步。凭借第二代 Transformer Engine 和第五代 Tensor Core,Blackwell 可提供高达 20 petaFLOPs 的 FP4 AI 计算,显着提高性能。该平台的第五代 NVLink 提供 1,800 GB/s 的 GPU 到 GPU 带宽,将 NVLink 域扩展到 72 个 GPU。
As AI models continue to grow and agentic workflows become more prevalent, the need for high-performance, low-latency computing solutions like the GH200 NVL32 and Blackwell GB200 NVL72 will only increase. NVIDIA's ongoing innovations ensure that the company remains at the forefront of AI and accelerated computing.
随着人工智能模型的不断发展和代理工作流程变得更加普遍,对 GH200 NVL32 和 Blackwell GB200 NVL72 等高性能、低延迟计算解决方案的需求只会增加。 NVIDIA 的持续创新确保该公司始终处于人工智能和加速计算领域的前沿。
Disclaimer:info@kdj.com
The information provided is not trading advice. kdj.com does not assume any responsibility for any investments made based on the information provided in this article. Cryptocurrencies are highly volatile and it is highly recommended that you invest with caution after thorough research!
If you believe that the content used on this website infringes your copyright, please contact us immediately (info@kdj.com) and we will delete it promptly.
-
- Robinhood 探索进入数十亿美元稳定币市场的可能性
- 2024-09-27 22:15:02
- Robinhood 已经在考虑发行自己的稳定币,但尚未做出最终决定
-
- 纽约梅隆银行在 SEC 闹剧中获得比特币托管批准:
- 2024-09-27 22:10:01
- 纽约梅隆银行宣布他们已获得托管比特币的批准,这标志着联邦银行在数字资产领域迈出了重要一步。
-
- 3 种被低估的加密资产,到 2025 年有可能爆发
- 2024-09-27 22:10:01
- 加密货币市场中只有少数代币显示出强劲的增长潜力,这导致投资者寻找廉价资产,这些资产可能会在 2025 年将小额投资转化为大额回报。
-
- Raboo 凭借创新的 AI-Meme 策略将自己定位为加密货币市场的杰出竞争者,BNB 和 SEI 势头强劲
- 2024-09-27 22:05:02
- 随着 BNB 和 SEI 在加密货币市场的势头不断增强,Raboo 创新的 AI-meme 策略使其成为一个杰出的竞争者。
-
- Rexas Finance (RXS):区块链上的真实世界资产
- 2024-09-27 22:05:02
- 由于其独特的资产代币化方法,Rexas Finance 在专家的首要推荐中脱颖而出。通过对现实世界的资产(包括房地产、艺术品和贵金属)进行代币化,Rexas Finance 为更多受众创造了以前无法实现的投资可能性。
-
- SEC“可能”对托雷斯法官 2023 年 7 月关于 @Ripple 案件中 $XRP 程序化销售的裁决提出上诉
- 2024-09-27 22:05:02
- 一位最近离开该机构的前 @SECGov 律师告诉我,SEC“可能”会对托雷斯法官 2023 年 7 月关于 @Ripple 案件中的 $XRP 程序化销售的裁决提出上诉,部分原因是:“[SEC ] 的每个人都真正相信决定是
-
- Celestia 将于 10 月 31 日解锁价值 1.4B 美元的代币,这会是一场危机吗?
- 2024-09-27 22:05:02
- 10 月 31 日,Celestia 将发行价值高达 11 亿美元的代币。此外,价值 3 亿美元的 Cheelee 代币将于 10 月 31 日开始发售。
-
- 巴基斯坦首款 3A 黑手党 Web3 游戏 – OMERTA
- 2024-09-27 22:00:01
- 区块链游戏经常因其基本的图形和重复的游戏玩法而受到批评。然而,OMERTA 决心永远改变这种看法。
-
- THORChain (RUNE) 计划将去中心化金融 (DeFi) 与比特币 (BTC) 连接起来
- 2024-09-27 22:00:01
- 作为加强去中心化努力的一项关键举措,流动性协议 THORChain (RUNE) 透露了将去中心化金融 (DeFi) 与市值最高的加密货币比特币联系起来的计划。