$86016.827096 USD

-3.42%

ethereum

$2129.471540 USD

-3.13%

tether

$0.999844 USD

-0.03%

xrp

$2.328702 USD

-8.44%

bnb

$595.845758 USD

-0.82%

solana

$137.920269 USD

-4.71%

usd-coin

$0.999995 USD

-0.01%

dogecoin

$0.194781 USD

-3.73%

cardano

$0.809126 USD

-8.20%

tron

$0.250091 USD

3.31%

pi

$1.801049 USD

0.03%

chainlink

$15.303441 USD

-10.54%

hedera

$0.227466 USD

-10.38%

unus-sed-leo

$9.837554 USD

-0.88%

stellar

$0.276271 USD

-8.05%

Articles d’actualité sur les crypto-monnaies

NVIDIA dévoile Llama 3.1-Nemotron-51B : un bond en avant en termes de précision et d'efficacité

Sep 24, 2024 at 07:06 pm

Le Llama 3.1-Nemotron-51B de NVIDIA établit de nouvelles références en matière d'IA avec une précision et une efficacité supérieures, permettant des charges de travail élevées sur un seul GPU.

NVIDIA's latest language model, Llama 3.1-Nemotron-51B, sets new standards in AI performance with exceptional accuracy and efficiency. This model marks an advance in scaling LLMs to fit on a single GPU, even under high workloads.

Le dernier modèle de langage de NVIDIA, Llama 3.1-Nemotron-51B, établit de nouvelles normes en matière de performances d'IA avec une précision et une efficacité exceptionnelles. Ce modèle marque une avancée dans la mise à l'échelle des LLM pour les adapter à un seul GPU, même sous des charges de travail élevées.

NVIDIA has unveiled a new language model, dubbed Llama 3.1-Nemotron-51B, promising a leap in AI performance with superior accuracy and efficiency. This model is derived from Meta's Llama-3.1-70B and leverages a novel Neural Architecture Search (NAS) approach to optimize both accuracy and efficiency. Remarkably, this model can fit on a single NVIDIA H100 GPU, even under high workloads, making it more accessible and cost-effective.

NVIDIA a dévoilé un nouveau modèle de langage, baptisé Llama 3.1-Nemotron-51B, promettant un bond en avant dans les performances de l'IA avec une précision et une efficacité supérieures. Ce modèle est dérivé du Llama-3.1-70B de Meta et exploite une nouvelle approche de recherche d'architecture neuronale (NAS) pour optimiser à la fois la précision et l'efficacité. Remarquablement, ce modèle peut s'adapter à un seul GPU NVIDIA H100, même sous des charges de travail élevées, ce qui le rend plus accessible et plus rentable.

The Llama 3.1-Nemotron-51B model boasts 2.2 times faster inference speeds while maintaining a nearly identical level of accuracy compared to its predecessors. This efficiency enables 4 times larger workloads on a single GPU during inference, thanks to its reduced memory footprint and optimized architecture.

Le modèle Llama 3.1-Nemotron-51B offre des vitesses d'inférence 2,2 fois plus rapides tout en conservant un niveau de précision presque identique à celui de ses prédécesseurs. Cette efficacité permet des charges de travail 4 fois plus importantes sur un seul GPU pendant l'inférence, grâce à son empreinte mémoire réduite et à son architecture optimisée.

One of the challenges in adopting large language models (LLMs) is their high inference cost. The Llama 3.1-Nemotron-51B model addresses this by offering a balanced tradeoff between accuracy and efficiency, making it a cost-effective solution for various applications, ranging from edge systems to cloud data centers. This capability is especially useful for deploying multiple models via Kubernetes and NIM blueprints.

L’un des défis liés à l’adoption de grands modèles linguistiques (LLM) est leur coût d’inférence élevé. Le modèle Llama 3.1-Nemotron-51B résout ce problème en offrant un compromis équilibré entre précision et efficacité, ce qui en fait une solution rentable pour diverses applications, allant des systèmes de périphérie aux centres de données cloud. Cette fonctionnalité est particulièrement utile pour déployer plusieurs modèles via des plans Kubernetes et NIM.

The Nemotron model is optimized with TensorRT-LLM engines for higher inference performance and packaged as an NVIDIA NIM inference microservice. This setup simplifies and accelerates the deployment of generative AI models across NVIDIA's accelerated infrastructure, including cloud, data centers, and workstations.

Le modèle Nemotron est optimisé avec les moteurs TensorRT-LLM pour des performances d'inférence plus élevées et présenté sous la forme d'un microservice d'inférence NVIDIA NIM. Cette configuration simplifie et accélère le déploiement de modèles d'IA génératifs sur l'infrastructure accélérée de NVIDIA, notamment le cloud, les centres de données et les postes de travail.

The Llama 3.1-Nemotron-51B-Instruct model was built using efficient NAS technology and training methods, which enable the creation of non-standard transformer models optimized for specific GPUs. This approach includes a block-distillation framework to train various block variants in parallel, ensuring efficient and accurate inference.

Le modèle Llama 3.1-Nemotron-51B-Instruct a été construit à l'aide d'une technologie NAS efficace et de méthodes de formation, qui permettent la création de modèles de transformateurs non standard optimisés pour des GPU spécifiques. Cette approche comprend un cadre de distillation de blocs pour entraîner diverses variantes de blocs en parallèle, garantissant ainsi une inférence efficace et précise.

NVIDIA's NAS approach allows users to select their optimal balance between accuracy and efficiency. For instance, the Llama-3.1-Nemotron-40B-Instruct variant was created to prioritize speed and cost, achieving a 3.2 times speed increase compared to the parent model with a moderate decrease in accuracy.

L'approche NAS de NVIDIA permet aux utilisateurs de sélectionner leur équilibre optimal entre précision et efficacité. Par exemple, la variante Llama-3.1-Nemotron-40B-Instruct a été créée pour donner la priorité à la vitesse et au coût, atteignant une augmentation de vitesse de 3,2 fois par rapport au modèle parent avec une diminution modérée de la précision.

The Llama 3.1-Nemotron-51B-Instruct model has been benchmarked against several industry standards, showcasing its superior performance in various scenarios. It doubles the throughput of the reference model, making it cost-effective across multiple use cases.

Le modèle Llama 3.1-Nemotron-51B-Instruct a été comparé à plusieurs normes industrielles, démontrant ses performances supérieures dans divers scénarios. Il double le débit du modèle de référence, ce qui le rend rentable dans plusieurs cas d'utilisation.

The Llama 3.1-Nemotron-51B-Instruct model offers a new set of possibilities for users and companies to leverage highly accurate foundation models cost-effectively. Its balance between accuracy and efficiency makes it an attractive option for builders and highlights the effectiveness of the NAS approach, which NVIDIA aims to extend to other models.

Le modèle Llama 3.1-Nemotron-51B-Instruct offre un nouvel ensemble de possibilités aux utilisateurs et aux entreprises pour exploiter de manière rentable des modèles de fondation très précis. Son équilibre entre précision et efficacité en fait une option attractive pour les constructeurs et met en avant l’efficacité de l’approche NAS, que NVIDIA ambitionne d’étendre à d’autres modèles.

Clause de non-responsabilité:info@kdj.com

Les informations fournies ne constituent pas des conseils commerciaux. kdj.com n’assume aucune responsabilité pour les investissements effectués sur la base des informations fournies dans cet article. Les crypto-monnaies sont très volatiles et il est fortement recommandé d’investir avec prudence après une recherche approfondie！

Si vous pensez que le contenu utilisé sur ce site Web porte atteinte à vos droits d’auteur, veuillez nous contacter immédiatement (info@kdj.com) et nous le supprimerons dans les plus brefs délais.

Autres articles publiés sur Mar 09, 2025

Plus