|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
NVIDIA 最新的 GH200 NVL32 系統展示了首次令牌時間 (TTFT) 效能的顯著飛躍,滿足了 Llama 3.1 和 3.2 等大型語言模型 (LLM) 不斷增長的需求。
NVIDIA's latest GH200 NVL32 system demonstrates a remarkable leap in time-to-first-token (TTFT) performance, addressing the growing needs of large language models (LLMs) such as Llama 3.1 and 3.2. According to the NVIDIA Technical Blog, this system is set to significantly impact real-time applications like interactive speech bots and coding assistants.
NVIDIA 最新的 GH200 NVL32 系統展示了首次令牌時間 (TTFT) 效能的顯著飛躍,滿足了 Llama 3.1 和 3.2 等大型語言模型 (LLM) 不斷增長的需求。據 NVIDIA 技術部落格稱,該系統將對互動式語音機器人和編碼助理等即時應用產生重大影響。
TTFT is the time it takes for an LLM to process a user prompt and begin generating a response. As LLMs grow in complexity, with models like Llama 3.1 now featuring hundreds of billions of parameters, the need for faster TTFT becomes critical. This is particularly true for applications requiring immediate responses, such as AI-driven customer support and digital assistants.
TTFT 是法學碩士處理使用者提示並開始產生回應所需的時間。隨著 LLM 的複雜性不斷增加,Llama 3.1 等模型現在具有數千億個參數,對更快 TTFT 的需求變得至關重要。對於需要立即回應的應用程式尤其如此,例如人工智慧驅動的客戶支援和數位助理。
NVIDIA's GH200 NVL32 system, powered by 32 NVIDIA GH200 Grace Hopper Superchips and connected via the NVLink Switch system, is designed to meet these demands. The system leverages TensorRT-LLM improvements to deliver outstanding TTFT for long-context inference, making it ideal for the latest Llama 3.1 models.
NVIDIA 的 GH200 NVL32 系統由 32 個 NVIDIA GH200 Grace Hopper 超級晶片提供支持,並透過 NVLink 交換器系統連接,旨在滿足這些需求。該系統利用 TensorRT-LLM 改進為長上下文推理提供出色的 TTFT,使其成為最新 Llama 3.1 模型的理想選擇。
Applications like AI speech bots and digital assistants require TTFT in the range of a few hundred milliseconds to simulate natural, human-like conversations. For instance, a TTFT of half a second is significantly more user-friendly than a TTFT of five seconds. Fast TTFT is particularly crucial for services that rely on up-to-date information, such as agentic workflows that use Retrieval-Augmented Generation (RAG) to enhance LLM prompts with relevant data.
人工智慧語音機器人和數位助理等應用需要幾百毫秒範圍內的 TTFT 來模擬自然的、類人的對話。例如,半秒的 TTFT 比 5 秒的 TTFT 更用戶友好。快速 TTFT 對於依賴最新資訊的服務尤其重要,例如使用檢索增強產生 (RAG) 來透過相關資料增強 LLM 提示的代理程式工作流程。
The NVIDIA GH200 NVL32 system achieves the fastest published TTFT for Llama 3.1 models, even with extensive context lengths. This performance is essential for real-time applications that demand quick and accurate responses.
NVIDIA GH200 NVL32 系統為 Llama 3.1 模型實現了最快的已發布 TTFT,即使上下文長度很長。這種性能對於需要快速、準確響應的即時應用程式至關重要。
The GH200 NVL32 system connects 32 NVIDIA GH200 Grace Hopper Superchips, each combining an NVIDIA Grace CPU and an NVIDIA Hopper GPU via NVLink-C2C. This setup allows for high-bandwidth, low-latency communication, essential for minimizing synchronization time and maximizing compute performance. The system delivers up to 127 petaFLOPs of peak FP8 AI compute, significantly reducing TTFT for demanding models with long contexts.
GH200 NVL32 系統連接 32 個 NVIDIA GH200 Grace Hopper 超級晶片,每個晶片透過 NVLink-C2C 結合了 NVIDIA Grace CPU 和 NVIDIA Hopper GPU。此設定可實現高頻寬、低延遲通信,這對於最小化同步時間和最大化運算效能至關重要。該系統可提供高達 127 petaFLOPs 的峰值 FP8 AI 計算,顯著降低具有長上下文的高要求模型的 TTFT。
For example, the system can achieve a TTFT of just 472 milliseconds for Llama 3.1 70B with an input sequence length of 32,768 tokens. Even for more complex models like Llama 3.1 405B, the system provides a TTFT of about 1.6 seconds using a 32,768-token input.
例如,對於輸入序列長度為 32,768 個令牌的 Llama 3.1 70B,系統可以實現僅為 472 毫秒的 TTFT。即使對於 Llama 3.1 405B 等更複雜的模型,系統也可以使用 32,768 個令牌輸入提供約 1.6 秒的 TTFT。
Inference continues to be a hotbed of innovation, with advancements in serving techniques, runtime optimizations, and more. Techniques like in-flight batching, speculative decoding, and FlashAttention are enabling more efficient and cost-effective deployments of powerful AI models.
隨著服務技術、運行時優化等方面的進步,推理仍然是創新的溫床。飛行中批次、推測性解碼和 FlashAttention 等技術可實現更有效率、更具成本效益的強大 AI 模型部署。
NVIDIA's accelerated computing platform, supported by a vast ecosystem of developers and a broad installed base of GPUs, is at the forefront of these innovations. The platform's compatibility with the CUDA programming model and deep engagement with the developer community ensure rapid advancements in AI capabilities.
NVIDIA 的加速運算平台得到了龐大的開發者生態系統和廣泛的 GPU 安裝基礎的支持,處於這些創新的前沿。該平台與CUDA程式設計模型的兼容性以及與開發者社群的深入參與確保了AI能力的快速進步。
Looking ahead, the NVIDIA Blackwell GB200 NVL72 platform promises even greater advancements. With second-generation Transformer Engine and fifth-generation Tensor Cores, Blackwell delivers up to 20 petaFLOPs of FP4 AI compute, significantly enhancing performance. The platform's fifth-generation NVLink provides 1,800 GB/s of GPU-to-GPU bandwidth, expanding the NVLink domain to 72 GPUs.
展望未來,NVIDIA Blackwell GB200 NVL72 平台有望取得更大的進步。憑藉第二代 Transformer Engine 和第五代 Tensor Core,Blackwell 可提供高達 20 petaFLOPs 的 FP4 AI 計算,顯著提高效能。該平台的第五代 NVLink 提供 1,800 GB/s 的 GPU 到 GPU 頻寬,將 NVLink 網域擴展到 72 個 GPU。
As AI models continue to grow and agentic workflows become more prevalent, the need for high-performance, low-latency computing solutions like the GH200 NVL32 and Blackwell GB200 NVL72 will only increase. NVIDIA's ongoing innovations ensure that the company remains at the forefront of AI and accelerated computing.
隨著人工智慧模型的不斷發展和代理工作流程變得更加普遍,對 GH200 NVL32 和 Blackwell GB200 NVL72 等高效能、低延遲運算解決方案的需求只會增加。 NVIDIA 的持續創新確保該公司始終處於人工智慧和加速運算領域的前沿。
Disclaimer:info@kdj.com
The information provided is not trading advice. kdj.com does not assume any responsibility for any investments made based on the information provided in this article. Cryptocurrencies are highly volatile and it is highly recommended that you invest with caution after thorough research!
If you believe that the content used on this website infringes your copyright, please contact us immediately (info@kdj.com) and we will delete it promptly.
-
- Robinhood 探索進入數十億美元穩定幣市場的可能性
- 2024-09-27 22:15:02
- Robinhood 已經在考慮發行自己的穩定幣,但尚未做出最終決定
-
- 紐約梅隆銀行在 SEC 鬧劇中獲得比特幣託管批准:
- 2024-09-27 22:10:01
- 紐約梅隆銀行宣布他們已獲得託管比特幣的批准,這標誌著聯邦銀行在數位資產領域邁出了重要一步。
-
- 3 種被低估的加密資產,到 2025 年有可能爆發
- 2024-09-27 22:10:01
- 加密貨幣市場中只有少數代幣顯示出強勁的成長潛力,這導致投資者尋找廉價資產,這些資產可能會在 2025 年將小額投資轉化為大筆回報。
-
- Raboo 憑藉創新的 AI-Meme 策略將自己定位為加密貨幣市場的傑出競爭者,BNB 和 SEI 勢頭強勁
- 2024-09-27 22:05:02
- 隨著 BNB 和 SEI 在加密貨幣市場的勢頭不斷增強,Raboo 創新的 AI-meme 策略使其成為一個傑出的競爭者。
-
- Rexas Finance (RXS):區塊鏈上的真實世界資產
- 2024-09-27 22:05:02
- 由於其獨特的資產代幣化方法,Rexas Finance 在專家的首要推薦中脫穎而出。透過對現實世界的資產(包括房地產、藝術品和貴金屬)進行代幣化,Rexas Finance 為更多受眾創造了以前無法實現的投資可能性。
-
- SEC「可能」對托雷斯法官 2023 年 7 月關於 @Ripple 案件中 $XRP 程序化銷售的裁決提出上訴
- 2024-09-27 22:05:02
- 一位最近離開該機構的前@SECGov 律師告訴我,SEC「可能」會對托雷斯法官2023 年7 月關於@Ripple 案件中的$XRP 程序化銷售的裁決提出上訴,部分原因是:「[SEC ]的每個人都真正相信決定是
-
- Celestia 將於 10 月 31 日解鎖價值 1.4B 美元的代幣,這會是一場危機嗎?
- 2024-09-27 22:05:02
- 10 月 31 日,Celestia 將發行價值高達 11 億美元的代幣。此外,價值 3 億美元的 Cheelee 代幣將於 10 月 31 日開始發售。
-
- 巴基斯坦首款 3A 黑手黨 Web3 遊戲 – OMERTA
- 2024-09-27 22:00:01
- 區塊鏈遊戲經常因其基本的圖形和重複的遊戲玩法而受到批評。然而,OMERTA 決心永遠改變這種看法。
-
- THORChain (RUNE) 計劃將去中心化金融 (DeFi) 與比特幣 (BTC) 連接起來
- 2024-09-27 22:00:01
- 作為加強去中心化努力的一項關鍵舉措,流動性協議 THORChain (RUNE) 透露了將去中心化金融 (DeFi) 與市值最高的加密貨幣比特幣聯繫起來的計劃。