bitcoin
bitcoin

$96934.534835 USD

-2.02%

ethereum
ethereum

$3439.367750 USD

-2.35%

tether
tether

$0.999681 USD

0.07%

xrp
xrp

$2.238914 USD

-2.27%

bnb
bnb

$669.556401 USD

-0.27%

solana
solana

$190.864177 USD

-2.05%

dogecoin
dogecoin

$0.311661 USD

-2.46%

usd-coin
usd-coin

$0.999999 USD

-0.02%

cardano
cardano

$0.894203 USD

-0.20%

tron
tron

$0.245501 USD

-3.65%

avalanche
avalanche

$38.806473 USD

-1.79%

chainlink
chainlink

$23.037219 USD

0.95%

toncoin
toncoin

$5.399737 USD

2.73%

sui
sui

$4.487167 USD

7.48%

shiba-inu
shiba-inu

$0.000021 USD

-4.36%

Nachrichtenartikel zu Kryptowährungen

NVIDIA hilft Apple dabei, ein schnelleres und besseres KI-Erlebnis zu schaffen

Dec 20, 2024 at 07:52 pm

Wenn Sie über einen BGR-Link kaufen, verdienen wir möglicherweise eine Affiliate-Provision und unterstützen so unsere fachkundigen Produktlabore. Apple und NVIDIA teilten Details einer Zusammenarbeit mit

NVIDIA hilft Apple dabei, ein schnelleres und besseres KI-Erlebnis zu schaffen

Tech giants Apple and NVIDIA have joined forces to enhance the performance of Large Language Models (LLMs) by introducing a new text generation technique for AI.

Die Technologiegiganten Apple und NVIDIA haben sich zusammengetan, um die Leistung von Large Language Models (LLMs) durch die Einführung einer neuen Textgenerierungstechnik für KI zu verbessern.

According to Apple, accelerating LLM inference is a crucial ML research problem. This is because auto-regressive token generation is computationally expensive and relatively slow. As a result, improving inference efficiency can reduce latency for users.

Laut Apple ist die Beschleunigung der LLM-Inferenz ein entscheidendes Problem der ML-Forschung. Dies liegt daran, dass die automatische Token-Generierung rechenintensiv und relativ langsam ist. Infolgedessen kann eine Verbesserung der Inferenzeffizienz die Latenz für Benutzer verringern.

In addition to ongoing efforts to accelerate inference on Apple silicon, the company has recently made significant progress in accelerating LLM inference for the NVIDIA GPUs widely used for production applications across the industry, the company writes in a research paper.

Zusätzlich zu den laufenden Bemühungen, die Inferenz auf Apple-Silizium zu beschleunigen, hat das Unternehmen kürzlich erhebliche Fortschritte bei der Beschleunigung der LLM-Inferenz für die NVIDIA-GPUs gemacht, die branchenweit häufig für Produktionsanwendungen verwendet werden, schreibt das Unternehmen in einem Forschungspapier.

Earlier this year, Apple published and open-sourced Recurrent Drafter (ReDrafter), which is a novel approach to speculative decoding that “achieves state of the art performance.”

Anfang dieses Jahres veröffentlichte Apple den Open-Source-Recurrent Drafter (ReDrafter), einen neuartigen Ansatz zur spekulativen Dekodierung, der „eine Leistung auf dem neuesten Stand der Technik erreicht“.

According to the company, ReDrafter uses an RNN draft model, and combines beam search with dynamic tree attention to speed up LLM token generation by up to 3.5 tokens per generation step for open source models, surpassing the performance of prior speculative decoding techniques.

Nach Angaben des Unternehmens verwendet ReDrafter ein RNN-Entwurfsmodell und kombiniert Strahlsuche mit dynamischer Baumaufmerksamkeit, um die LLM-Token-Generierung um bis zu 3,5 Token pro Generierungsschritt für Open-Source-Modelle zu beschleunigen und damit die Leistung früherer spekulativer Decodierungstechniken zu übertreffen.

“In benchmarking a tens-of-billions parameter production model on NVIDIA GPUs, using the NVIDIA TensorRT-LLM inference acceleration framework with ReDrafter, we have seen 2.7x speed-up in generated tokens per second for greedy decoding,” Apple papers show.

„Beim Benchmarking eines Produktionsmodells mit mehreren zehn Milliarden Parametern auf NVIDIA-GPUs unter Verwendung des NVIDIA TensorRT-LLM-Inferenzbeschleunigungs-Frameworks mit ReDrafter haben wir eine 2,7-fache Beschleunigung der generierten Token pro Sekunde für gierige Dekodierung festgestellt“, zeigen Apple-Papiere.

With that, this technology could signifanctly reduce latency users may experience, while also using fewer GPUs and consuming less power.

Damit könnte diese Technologie die Latenz, die Benutzer möglicherweise erleben, erheblich reduzieren und gleichzeitig weniger GPUs verbrauchen und weniger Strom verbrauchen.

Nachrichtenquelle:bgr.com

Haftungsausschluss:info@kdj.com

The information provided is not trading advice. kdj.com does not assume any responsibility for any investments made based on the information provided in this article. Cryptocurrencies are highly volatile and it is highly recommended that you invest with caution after thorough research!

If you believe that the content used on this website infringes your copyright, please contact us immediately (info@kdj.com) and we will delete it promptly.

Weitere Artikel veröffentlicht am Dec 21, 2024