|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Articles d’actualité sur les crypto-monnaies
Apple et NVIDIA collaborent pour implémenter des performances de génération de texte plus rapides avec de grands modèles de langage
Dec 19, 2024 at 05:33 am
Dans un article de blog publié aujourd'hui, les ingénieurs Apple ont partagé de nouveaux détails sur une collaboration avec NVIDIA visant à implémenter des performances de génération de texte plus rapides avec de grands modèles de langage.
Apple engineers have shared new details on a collaboration with NVIDIA to implement faster text generation performance with large language models (LLMs).
Les ingénieurs Apple ont partagé de nouveaux détails sur une collaboration avec NVIDIA pour implémenter des performances de génération de texte plus rapides avec des modèles de langage étendus (LLM).
Earlier this year, Apple published and open sourced its Recurrent Drafter (ReDrafter) technique, a new method for generating text with LLMs that’s significantly faster and “achieves state of the art performance.” It combines two techniques: beam search (to explore multiple possibilities) and dynamic tree attention (to efficiently handle choices).
Plus tôt cette année, Apple a publié et open source sa technique Recurrent Drafter (ReDrafter), une nouvelle méthode de génération de texte avec des LLM qui est nettement plus rapide et « atteint des performances de pointe ». Il combine deux techniques : la recherche de faisceaux (pour explorer de multiples possibilités) et l'attention dynamique des arbres (pour gérer efficacement les choix).
While its research demonstrated strong results, Apple also collaborated with NVIDIA to apply ReDrafter in production. As part of this collaboration, ReDrafter was integrated into NVIDIA TensorRT-LLM, a tool that helps run LLMs faster on NVIDIA GPUs.
Bien que ses recherches aient donné des résultats probants, Apple a également collaboré avec NVIDIA pour appliquer ReDrafter en production. Dans le cadre de cette collaboration, ReDrafter a été intégré à NVIDIA TensorRT-LLM, un outil qui permet d'exécuter les LLM plus rapidement sur les GPU NVIDIA.
Here are the results:
Voici les résultats :
To enable the integration of ReDrafter, NVIDIA added new operators or exposed existing ones, which considerably improved TensorRT-LLM’s capability to accommodate sophisticated models and decoding methods. ML developers using NVIDIA GPUs can now easily benefit from ReDrafter’s accelerated token generation for their production LLM applications with TensorRT-LLM.
Pour permettre l'intégration de ReDrafter, NVIDIA a ajouté de nouveaux opérateurs ou exposé ceux existants, ce qui a considérablement amélioré la capacité de TensorRT-LLM à prendre en charge des modèles et des méthodes de décodage sophistiqués. Les développeurs de ML utilisant des GPU NVIDIA peuvent désormais facilement bénéficier de la génération accélérée de jetons de ReDrafter pour leurs applications LLM de production avec TensorRT-LLM.
In benchmarking a tens-of-billions parameter production model on NVIDIA GPUs, using the NVIDIA TensorRT-LLM inference acceleration framework with ReDrafter, we have seen 2.7x speed-up in generated tokens per second for greedy decoding. These benchmark results indicate this tech could significantly reduce latency users may experience, while also using fewer GPUs and consuming less power.
En comparant un modèle de production de dizaines de milliards de paramètres sur les GPU NVIDIA, à l'aide du cadre d'accélération d'inférence NVIDIA TensorRT-LLM avec ReDrafter, nous avons constaté une accélération de 2,7 fois des jetons générés par seconde pour un décodage gourmand. Ces résultats de référence indiquent que cette technologie pourrait réduire considérablement la latence que les utilisateurs peuvent rencontrer, tout en utilisant moins de GPU et en consommant moins d'énergie.
“LLMs are increasingly being used to power production applications, and improving inference efficiency can both impact computational costs and reduce latency for users,” Apple’s machine learning researchers conclude. “With ReDrafter’s novel approach to speculative decoding integrated into the NVIDIA TensorRT-LLM framework, developers can now benefit from faster token generation on NVIDIA GPUs for their production LLM applications.”
« Les LLM sont de plus en plus utilisés pour alimenter les applications de production, et l'amélioration de l'efficacité de l'inférence peut à la fois avoir un impact sur les coûts de calcul et réduire la latence pour les utilisateurs », concluent les chercheurs en apprentissage automatique d'Apple. « Grâce à la nouvelle approche de ReDrafter en matière de décodage spéculatif intégrée au framework NVIDIA TensorRT-LLM, les développeurs peuvent désormais bénéficier d'une génération de jetons plus rapide sur les GPU NVIDIA pour leurs applications LLM de production. »
You can learn more about this work on Apple’s website and in a blog post on NVIDIA’s website.
Vous pouvez en savoir plus sur ce travail sur le site Web d'Apple et dans un article de blog sur le site Web de NVIDIA.
Clause de non-responsabilité:info@kdj.com
The information provided is not trading advice. kdj.com does not assume any responsibility for any investments made based on the information provided in this article. Cryptocurrencies are highly volatile and it is highly recommended that you invest with caution after thorough research!
If you believe that the content used on this website infringes your copyright, please contact us immediately (info@kdj.com) and we will delete it promptly.
-
- Arthur Hayes prédit une vente massive du marché de la cryptographie liée à l'investiture présidentielle de Donald Trump le 20 janvier 2025
- Dec 19, 2024 at 10:45 am
- Arthur Hayes, co-fondateur de BitMEX, prédit une vente massive du marché de la cryptographie liée à l'investiture présidentielle de Donald Trump le 20 janvier 2025.
-
- Les données sur le comportement des baleines de Cardano (ADA) révèlent la position indécise du marché
- Dec 19, 2024 at 10:45 am
- Les dernières semaines ont été très volatiles pour Cardano (ADA), reflétant les mouvements imprévisibles du marché dans son ensemble et les jeux stratégiques de l'argent intelligent.
-
- Le rallye du Nouvel An du Bitcoin est au point mort, ce qui suscite des inquiétudes quant à l'affaiblissement de la dynamique haussière.
- Dec 19, 2024 at 10:45 am
- Selon le graphique ci-dessous, Bitcoin se négocie actuellement à 104 899 $, soit une baisse de 1,21 % après avoir légèrement reculé après avoir atteint 106 214 $.
-
- Le président de la Fed, Powell, entrave le rallye Bitcoin et déclare que la banque centrale n'a « aucun désir » de stocker l'actif cryptographique
- Dec 19, 2024 at 10:45 am
- Le président de la Réserve fédérale, Jerome Powell, a déclaré mercredi que la banque centrale américaine n'avait aucune envie de s'impliquer dans un effort gouvernemental visant à stocker de grandes quantités de bitcoins.
-
- La Réserve fédérale américaine réduit ses taux d'intérêt pour la troisième fois consécutive, mais le marché de la cryptographie reste impassible
- Dec 19, 2024 at 10:45 am
- La Réserve fédérale américaine a récemment annoncé le nouveau taux d'intérêt du pays. Le 18 décembre, lors de la dernière réunion du FOMC de l'année, Jerome Powell a informé que les intérêts seraient encore réduits de 25 points de base.