|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
NVIDIA 的 Llama 3.1-Nemotron-51B 憑藉卓越的準確性和效率在 AI 領域樹立了新基準,可在單一 GPU 上實現高工作負載。
NVIDIA's latest language model, Llama 3.1-Nemotron-51B, sets new standards in AI performance with exceptional accuracy and efficiency. This model marks an advance in scaling LLMs to fit on a single GPU, even under high workloads.
NVIDIA 的最新語言模型 Llama 3.1-Nemotron-51B 以卓越的準確性和效率為 AI 性能樹立了新標準。該模型標誌著在擴展 LLM 以適應單一 GPU(即使在高工作負載下)方面取得了進展。
NVIDIA has unveiled a new language model, dubbed Llama 3.1-Nemotron-51B, promising a leap in AI performance with superior accuracy and efficiency. This model is derived from Meta's Llama-3.1-70B and leverages a novel Neural Architecture Search (NAS) approach to optimize both accuracy and efficiency. Remarkably, this model can fit on a single NVIDIA H100 GPU, even under high workloads, making it more accessible and cost-effective.
NVIDIA 推出了一種名為 Llama 3.1-Nemotron-51B 的新語言模型,承諾以卓越的準確性和效率實現 AI 性能的飛躍。該模型源自 Meta 的 Llama-3.1-70B,並利用新穎的神經架構搜尋 (NAS) 方法來優化準確性和效率。值得注意的是,即使在高工作負載下,該模型也可以安裝在單一 NVIDIA H100 GPU 上,使其更易於使用且更具成本效益。
The Llama 3.1-Nemotron-51B model boasts 2.2 times faster inference speeds while maintaining a nearly identical level of accuracy compared to its predecessors. This efficiency enables 4 times larger workloads on a single GPU during inference, thanks to its reduced memory footprint and optimized architecture.
與前代產品相比,Llama 3.1-Nemotron-51B 模型的推理速度提高了 2.2 倍,同時保持了幾乎相同的精度水平。得益於記憶體佔用的減少和架構的最佳化,這種效率使得推理期間單一 GPU 上的工作負載增加了 4 倍。
One of the challenges in adopting large language models (LLMs) is their high inference cost. The Llama 3.1-Nemotron-51B model addresses this by offering a balanced tradeoff between accuracy and efficiency, making it a cost-effective solution for various applications, ranging from edge systems to cloud data centers. This capability is especially useful for deploying multiple models via Kubernetes and NIM blueprints.
採用大型語言模型 (LLM) 的挑戰之一是其推理成本較高。 Llama 3.1-Nemotron-51B 模型透過在準確性和效率之間提供平衡權衡來解決這個問題,使其成為從邊緣系統到雲端資料中心等各種應用的經濟高效的解決方案。此功能對於透過 Kubernetes 和 NIM 藍圖部署多個模型特別有用。
The Nemotron model is optimized with TensorRT-LLM engines for higher inference performance and packaged as an NVIDIA NIM inference microservice. This setup simplifies and accelerates the deployment of generative AI models across NVIDIA's accelerated infrastructure, including cloud, data centers, and workstations.
Nemotron 模型使用 TensorRT-LLM 引擎進行了最佳化,以實現更高的推理性能,並打包為 NVIDIA NIM 推理微服務。此設定簡化並加速了生成式 AI 模型在 NVIDIA 加速基礎架構(包括雲端、資料中心和工作站)中的部署。
The Llama 3.1-Nemotron-51B-Instruct model was built using efficient NAS technology and training methods, which enable the creation of non-standard transformer models optimized for specific GPUs. This approach includes a block-distillation framework to train various block variants in parallel, ensuring efficient and accurate inference.
Llama 3.1-Nemotron-51B-Instruct 模型是使用高效的 NAS 技術和訓練方法構建的,可以創建針對特定 GPU 優化的非標準 Transformer 模型。該方法包括一個塊蒸餾框架,用於並行訓練各種塊變體,確保推理高效且準確。
NVIDIA's NAS approach allows users to select their optimal balance between accuracy and efficiency. For instance, the Llama-3.1-Nemotron-40B-Instruct variant was created to prioritize speed and cost, achieving a 3.2 times speed increase compared to the parent model with a moderate decrease in accuracy.
NVIDIA 的 NAS 方法可讓使用者在準確性和效率之間選擇最佳平衡。例如,Llama-3.1-Nemotron-40B-Instruct 變體的創建是為了優先考慮速度和成本,與父模型相比,速度提高了 3.2 倍,但精度略有下降。
The Llama 3.1-Nemotron-51B-Instruct model has been benchmarked against several industry standards, showcasing its superior performance in various scenarios. It doubles the throughput of the reference model, making it cost-effective across multiple use cases.
Llama 3.1-Nemotron-51B-Instruct模型已針對多項行業標準進行了基準測試,展示了其在各種場景下的卓越性能。它使參考模型的吞吐量增加了一倍,使其在多個用例中具有成本效益。
The Llama 3.1-Nemotron-51B-Instruct model offers a new set of possibilities for users and companies to leverage highly accurate foundation models cost-effectively. Its balance between accuracy and efficiency makes it an attractive option for builders and highlights the effectiveness of the NAS approach, which NVIDIA aims to extend to other models.
Llama 3.1-Nemotron-51B-Instruct 模型為使用者和公司提供了一系列新的可能性,以經濟高效地利用高精度基礎模型。其準確性和效率之間的平衡使其成為對建構者有吸引力的選擇,並突顯了 NAS 方法的有效性,NVIDIA 旨在將其擴展到其他模型。
免責聲明:info@kdj.com
所提供的資訊並非交易建議。 kDJ.com對任何基於本文提供的資訊進行的投資不承擔任何責任。加密貨幣波動性較大,建議您充分研究後謹慎投資!
如果您認為本網站使用的內容侵犯了您的版權,請立即聯絡我們(info@kdj.com),我們將及時刪除。
-
- Bitgert (BRISE) 與以太坊 (ETH) 和 Solana (SOL) - 哪個是更好的投資?
- 2024-09-24 22:30:02
- 以太坊和 Solana 都是山寨幣市場的重要參與者,前者幾乎是山寨幣之王,後者是值得挑戰的挑戰者
-
- 如何購買 Floki Inu (FLOKI) 或 GoodEgg (GEGG) 硬幣
- 2024-09-24 22:30:02
- 隨著越來越多的投資者湧入加密貨幣市場,Floki Inu (FLOKI) 和 GoodEgg (GEGG) 等創新代幣的崛起繼續引起人們的關注。
-
- Bybit 為穆斯林投資者推出伊斯蘭加密貨幣帳戶,並諮詢 ZICO Shariah 以獲得伊斯蘭教法合規性
- 2024-09-24 22:30:02
- 作為加密貨幣和衍生性商品交易所的領導者,Bybit 在其加密伊斯蘭帳戶中針對穆斯林投資者推出了一項罕見的服務。
-
- 隨著 Pepe Coin (PEPE) 市值下降,Rexas Finance (RXS) 成為一個有前途的替代方案
- 2024-09-24 22:30:02
- 隨著加密貨幣市場為潛在的轉變做好準備,佩佩幣(PEPE)發現自己正處於一個關鍵時刻。目前PEPE的交易價格為0.00000740美元,市值為30億美元,24小時交易量為3.84億美元。儘管數字如此可觀,但 PEPE 在過去一個月中一直處於下降趨勢,其特徵是高點和低點不斷下降。隨著散戶興趣降溫,問題出現了:PEPE 能否恢復到 2024 年初的水準?儘管前進的道路不確定,但還有一個值得考慮的替代方案——Rexas Finance (RXS),這是一種價格低於 0.10 美元的代幣,有望帶來巨大的成長潛力。
-
- Sanctum 與 Jupiter Exchange 和 BasedApp 合作推出雲端卡 — SOL Card,這是第一張基於 Solana 構建的借記卡
- 2024-09-24 22:30:02
- 與標準借記卡不同,該卡改善了客戶使用 SOL 和穩定幣的方式。 SOL 卡提供流暢、愉快、互動的付款體驗。
-
- aarn 推出 fi 802 AI Quant DeFi Vault,準備顛覆 DeFi 市場
- 2024-09-24 22:20:02
- 隨著市場領先的 DeFi 解決方案之一從低迷中復甦,AAVE 價格在過去一個月飆升了 20% 以上。
-
- 完成對債權人的 2.5B 美元償還計劃後,Celsius (CEL) 代幣飆升 300%
- 2024-09-24 22:20:02
- 在完成對債權人 25 億美元的償還計畫後,Celsius Network 的原生代幣 CEL 在過去一個月內大幅上漲了 300% 以上。
-
- Dogwifhat (WIF) 戰勝空頭,飆升至 CoinMarketCap 漲幅榜榜首
- 2024-09-24 22:20:02
- 截至撰寫本文時,這個以狗為主題的代幣在過去 24 小時內上漲了 13.12%,達到 1.92 美元的價格。
-
- 網路最初幾個月的比特幣礦工正在向 Kraken 發送 BTC
- 2024-09-24 22:20:02
- 該錢包三週前首次開始將比特幣轉移到 Kraken,迄今已透過三筆獨立交易轉移了 10 BTC。