|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Articles d’actualité sur les crypto-monnaies
NVIDIA dévoile Llama 3.1-Nemotron-51B : un bond en avant en termes de précision et d'efficacité
Sep 24, 2024 at 07:06 pm
Le Llama 3.1-Nemotron-51B de NVIDIA établit de nouvelles références en matière d'IA avec une précision et une efficacité supérieures, permettant des charges de travail élevées sur un seul GPU.
NVIDIA's latest language model, Llama 3.1-Nemotron-51B, sets new standards in AI performance with exceptional accuracy and efficiency. This model marks an advance in scaling LLMs to fit on a single GPU, even under high workloads.
Le dernier modèle de langage de NVIDIA, Llama 3.1-Nemotron-51B, établit de nouvelles normes en matière de performances d'IA avec une précision et une efficacité exceptionnelles. Ce modèle marque une avancée dans la mise à l'échelle des LLM pour les adapter à un seul GPU, même sous des charges de travail élevées.
NVIDIA has unveiled a new language model, dubbed Llama 3.1-Nemotron-51B, promising a leap in AI performance with superior accuracy and efficiency. This model is derived from Meta's Llama-3.1-70B and leverages a novel Neural Architecture Search (NAS) approach to optimize both accuracy and efficiency. Remarkably, this model can fit on a single NVIDIA H100 GPU, even under high workloads, making it more accessible and cost-effective.
NVIDIA a dévoilé un nouveau modèle de langage, baptisé Llama 3.1-Nemotron-51B, promettant un bond en avant dans les performances de l'IA avec une précision et une efficacité supérieures. Ce modèle est dérivé du Llama-3.1-70B de Meta et exploite une nouvelle approche de recherche d'architecture neuronale (NAS) pour optimiser à la fois la précision et l'efficacité. Remarquablement, ce modèle peut s'adapter à un seul GPU NVIDIA H100, même sous des charges de travail élevées, ce qui le rend plus accessible et plus rentable.
The Llama 3.1-Nemotron-51B model boasts 2.2 times faster inference speeds while maintaining a nearly identical level of accuracy compared to its predecessors. This efficiency enables 4 times larger workloads on a single GPU during inference, thanks to its reduced memory footprint and optimized architecture.
Le modèle Llama 3.1-Nemotron-51B offre des vitesses d'inférence 2,2 fois plus rapides tout en conservant un niveau de précision presque identique à celui de ses prédécesseurs. Cette efficacité permet des charges de travail 4 fois plus importantes sur un seul GPU pendant l'inférence, grâce à son empreinte mémoire réduite et à son architecture optimisée.
One of the challenges in adopting large language models (LLMs) is their high inference cost. The Llama 3.1-Nemotron-51B model addresses this by offering a balanced tradeoff between accuracy and efficiency, making it a cost-effective solution for various applications, ranging from edge systems to cloud data centers. This capability is especially useful for deploying multiple models via Kubernetes and NIM blueprints.
L’un des défis liés à l’adoption de grands modèles linguistiques (LLM) est leur coût d’inférence élevé. Le modèle Llama 3.1-Nemotron-51B résout ce problème en offrant un compromis équilibré entre précision et efficacité, ce qui en fait une solution rentable pour diverses applications, allant des systèmes de périphérie aux centres de données cloud. Cette fonctionnalité est particulièrement utile pour déployer plusieurs modèles via des plans Kubernetes et NIM.
The Nemotron model is optimized with TensorRT-LLM engines for higher inference performance and packaged as an NVIDIA NIM inference microservice. This setup simplifies and accelerates the deployment of generative AI models across NVIDIA's accelerated infrastructure, including cloud, data centers, and workstations.
Le modèle Nemotron est optimisé avec les moteurs TensorRT-LLM pour des performances d'inférence plus élevées et présenté sous la forme d'un microservice d'inférence NVIDIA NIM. Cette configuration simplifie et accélère le déploiement de modèles d'IA génératifs sur l'infrastructure accélérée de NVIDIA, notamment le cloud, les centres de données et les postes de travail.
The Llama 3.1-Nemotron-51B-Instruct model was built using efficient NAS technology and training methods, which enable the creation of non-standard transformer models optimized for specific GPUs. This approach includes a block-distillation framework to train various block variants in parallel, ensuring efficient and accurate inference.
Le modèle Llama 3.1-Nemotron-51B-Instruct a été construit à l'aide d'une technologie NAS efficace et de méthodes de formation, qui permettent la création de modèles de transformateurs non standard optimisés pour des GPU spécifiques. Cette approche comprend un cadre de distillation de blocs pour entraîner diverses variantes de blocs en parallèle, garantissant ainsi une inférence efficace et précise.
NVIDIA's NAS approach allows users to select their optimal balance between accuracy and efficiency. For instance, the Llama-3.1-Nemotron-40B-Instruct variant was created to prioritize speed and cost, achieving a 3.2 times speed increase compared to the parent model with a moderate decrease in accuracy.
L'approche NAS de NVIDIA permet aux utilisateurs de sélectionner leur équilibre optimal entre précision et efficacité. Par exemple, la variante Llama-3.1-Nemotron-40B-Instruct a été créée pour donner la priorité à la vitesse et au coût, atteignant une augmentation de vitesse de 3,2 fois par rapport au modèle parent avec une diminution modérée de la précision.
The Llama 3.1-Nemotron-51B-Instruct model has been benchmarked against several industry standards, showcasing its superior performance in various scenarios. It doubles the throughput of the reference model, making it cost-effective across multiple use cases.
Le modèle Llama 3.1-Nemotron-51B-Instruct a été comparé à plusieurs normes industrielles, démontrant ses performances supérieures dans divers scénarios. Il double le débit du modèle de référence, ce qui le rend rentable dans plusieurs cas d'utilisation.
The Llama 3.1-Nemotron-51B-Instruct model offers a new set of possibilities for users and companies to leverage highly accurate foundation models cost-effectively. Its balance between accuracy and efficiency makes it an attractive option for builders and highlights the effectiveness of the NAS approach, which NVIDIA aims to extend to other models.
Le modèle Llama 3.1-Nemotron-51B-Instruct offre un nouvel ensemble de possibilités aux utilisateurs et aux entreprises pour exploiter de manière rentable des modèles de fondation très précis. Son équilibre entre précision et efficacité en fait une option attractive pour les constructeurs et met en avant l’efficacité de l’approche NAS, que NVIDIA ambitionne d’étendre à d’autres modèles.
Clause de non-responsabilité:info@kdj.com
Les informations fournies ne constituent pas des conseils commerciaux. kdj.com n’assume aucune responsabilité pour les investissements effectués sur la base des informations fournies dans cet article. Les crypto-monnaies sont très volatiles et il est fortement recommandé d’investir avec prudence après une recherche approfondie!
Si vous pensez que le contenu utilisé sur ce site Web porte atteinte à vos droits d’auteur, veuillez nous contacter immédiatement (info@kdj.com) et nous le supprimerons dans les plus brefs délais.
-
- World Network vend désormais ses orbes à balayage oculaire au public – mais les détails restent flous
- Nov 22, 2024 at 10:30 pm
- World Network – anciennement Worldcoin – offre à toute personne disposée à payer un dépôt de 100 $ la possibilité d'acheter et d'exploiter l'un de ses orbes controversés à balayage oculaire – mais les détails derrière les incitations financières restent obscurs.
-
- Ethereum (ETH) pousse vers un nouvel ATH de 6 000 $ pour envoyer Pepe Coin (PEPE) sur un rallye de 2 700 % et un jeton DeFi basé sur ETH 8 790 % plus élevé
- Nov 22, 2024 at 10:30 pm
- Ethereum (ETH) se rapproche d'un sommet historique (ATH) sans précédent de 6 000 $, provoquant l'enthousiasme dans le monde de la cryptographie. L’une des principales causes de l’expansion explosive parmi les analystes est l’expansion de l’infrastructure et l’acceptation générale d’Ethereum.
-
- Les pièces les plus rares frappées sous le règne de la reine Elizabeth II
- Nov 22, 2024 at 10:25 pm
- Certaines pièces très prisées peuvent être échangées sur des sites Web tels qu'eBay à un prix bien supérieur à leur valeur nominale. Les pièces rares à surveiller lors de votre monnaie incluent un très convoité Kew Gardens 50p et une sélection de pièces spéciales de 10p de l'alphabet.
-
- les sites de jeux d’argent présentent de nombreux avantages. Vous bénéficiez de frais de transaction faibles, de jeux dont l'équité est prouvée, de dépôts et de retraits rapides et d'une communauté croissante de fans du casino Solana. sortie : tit
- Nov 22, 2024 at 10:25 pm
- Depuis son lancement en 2020, Solana est rapidement devenue une crypto-monnaie populaire, rivalisant avec Bitcoin et Ethereum.
-
- Travail des enfants : le sort des garçons et des filles piégés dans les plantations de cacao d'Ondo
- Nov 22, 2024 at 10:25 pm
- Les communautés productrices de cacao de Bolorunduro, Fagbo, Igushin et Bagbe dans la zone d'administration locale d'Ondo Est et de l'Ouest avaient la plus grande capacité de production de cacao.