bitcoin
bitcoin

$96852.595647 USD

-0.42%

ethereum
ethereum

$3428.266723 USD

0.04%

tether
tether

$0.999923 USD

0.16%

xrp
xrp

$2.245898 USD

0.70%

bnb
bnb

$671.218165 USD

1.33%

solana
solana

$190.228028 USD

-1.41%

dogecoin
dogecoin

$0.311898 USD

0.52%

usd-coin
usd-coin

$1.000136 USD

0.03%

cardano
cardano

$0.886121 USD

0.36%

tron
tron

$0.245096 USD

-2.27%

avalanche
avalanche

$38.717622 USD

-1.13%

chainlink
chainlink

$22.880213 USD

1.19%

toncoin
toncoin

$5.399445 USD

4.32%

sui
sui

$4.462294 USD

7.17%

shiba-inu
shiba-inu

$0.000021 USD

-4.01%

Articles d’actualité sur les crypto-monnaies

NVIDIA aide Apple à créer une expérience d'IA plus rapide et meilleure

Dec 20, 2024 at 07:52 pm

Si vous achetez via un lien BGR, nous pouvons gagner une commission d'affiliation, aidant ainsi à soutenir nos laboratoires de produits experts. Apple et NVIDIA ont partagé les détails d'une collaboration

NVIDIA aide Apple à créer une expérience d'IA plus rapide et meilleure

Tech giants Apple and NVIDIA have joined forces to enhance the performance of Large Language Models (LLMs) by introducing a new text generation technique for AI.

Les géants de la technologie Apple et NVIDIA ont uni leurs forces pour améliorer les performances des grands modèles linguistiques (LLM) en introduisant une nouvelle technique de génération de texte pour l'IA.

According to Apple, accelerating LLM inference is a crucial ML research problem. This is because auto-regressive token generation is computationally expensive and relatively slow. As a result, improving inference efficiency can reduce latency for users.

Selon Apple, l’accélération de l’inférence LLM est un problème crucial de recherche en ML. En effet, la génération de jetons auto-régressifs est coûteuse en calcul et relativement lente. En conséquence, l’amélioration de l’efficacité de l’inférence peut réduire la latence pour les utilisateurs.

In addition to ongoing efforts to accelerate inference on Apple silicon, the company has recently made significant progress in accelerating LLM inference for the NVIDIA GPUs widely used for production applications across the industry, the company writes in a research paper.

En plus des efforts en cours pour accélérer l'inférence sur le silicium Apple, la société a récemment réalisé des progrès significatifs dans l'accélération de l'inférence LLM pour les GPU NVIDIA largement utilisés pour les applications de production dans l'ensemble de l'industrie, écrit la société dans un document de recherche.

Earlier this year, Apple published and open-sourced Recurrent Drafter (ReDrafter), which is a novel approach to speculative decoding that “achieves state of the art performance.”

Plus tôt cette année, Apple a publié et open source Recurrent Drafter (ReDrafter), qui est une nouvelle approche du décodage spéculatif qui « atteint des performances de pointe ».

According to the company, ReDrafter uses an RNN draft model, and combines beam search with dynamic tree attention to speed up LLM token generation by up to 3.5 tokens per generation step for open source models, surpassing the performance of prior speculative decoding techniques.

Selon la société, ReDrafter utilise un projet de modèle RNN et combine la recherche de faisceaux avec une attention dynamique dans les arbres pour accélérer la génération de jetons LLM jusqu'à 3,5 jetons par étape de génération pour les modèles open source, dépassant ainsi les performances des techniques de décodage spéculatif précédentes.

“In benchmarking a tens-of-billions parameter production model on NVIDIA GPUs, using the NVIDIA TensorRT-LLM inference acceleration framework with ReDrafter, we have seen 2.7x speed-up in generated tokens per second for greedy decoding,” Apple papers show.

"En comparant un modèle de production de dizaines de milliards de paramètres sur les GPU NVIDIA, en utilisant le cadre d'accélération d'inférence NVIDIA TensorRT-LLM avec ReDrafter, nous avons constaté une accélération de 2,7x des jetons générés par seconde pour un décodage gourmand", montrent les documents Apple.

With that, this technology could signifanctly reduce latency users may experience, while also using fewer GPUs and consuming less power.

Grâce à cela, cette technologie pourrait réduire considérablement la latence que les utilisateurs peuvent rencontrer, tout en utilisant moins de GPU et en consommant moins d'énergie.

Source de nouvelles:bgr.com

Clause de non-responsabilité:info@kdj.com

The information provided is not trading advice. kdj.com does not assume any responsibility for any investments made based on the information provided in this article. Cryptocurrencies are highly volatile and it is highly recommended that you invest with caution after thorough research!

If you believe that the content used on this website infringes your copyright, please contact us immediately (info@kdj.com) and we will delete it promptly.

Autres articles publiés sur Dec 21, 2024