$83666.044617 USD

-8.76%

ethereum

$2091.944091 USD

-11.63%

tether

$0.999558 USD

-0.02%

xrp

$2.319688 USD

-12.64%

bnb

$563.625816 USD

-6.10%

solana

$136.566716 USD

-15.32%

usd-coin

$0.999829 USD

0.00%

dogecoin

$0.192157 USD

-12.05%

cardano

$0.807339 USD

-19.23%

tron

$0.232527 USD

-2.68%

pi

$1.767751 USD

7.51%

hedera

$0.225984 USD

-9.41%

unus-sed-leo

$9.939243 USD

-0.10%

chainlink

$13.904662 USD

-14.14%

stellar

$0.283124 USD

-14.81%

Nachrichtenartikel zu Kryptowährungen

CPUs erweisen sich als Konkurrenten für kleine generative KI-Modelle

May 01, 2024 at 07:24 pm

CPU-basierte generative KI: Intel und Ampere argumentieren, dass ihre Chips mit kleineren Modellen umgehen können. Optimierungen und Hardware-Fortschritte reduzieren Leistungseinbußen, die mit reiner CPU-KI verbunden sind. Intels Granite Rapids Xeon 6 und Amperes Altra-CPUs zeigen vielversprechende Ergebnisse mit kleinen LLMs. Aufgrund von Speicher- und Rechenengpässen ersetzen CPUs bei größeren Modellen möglicherweise nicht die GPUs, sie zeigen jedoch Potenzial für Unternehmensanwendungen, die kleinere Modelle verarbeiten.

CPUs Emerge as Viable Option for Running Small Generative AI Models

CPUs erweisen sich als praktikable Option für die Ausführung kleiner generativer KI-Modelle

Amidst the proliferation of generative AI chatbots like ChatGPT and Gemini, discussions have centered on their dependence on high-performance computing resources such as GPUs and dedicated accelerators. However, recent advancements in CPU technology are challenging this paradigm, suggesting that CPUs can effectively handle smaller generative AI models.

Angesichts der zunehmenden Verbreitung generativer KI-Chatbots wie ChatGPT und Gemini konzentrierten sich die Diskussionen auf deren Abhängigkeit von leistungsstarken Rechenressourcen wie GPUs und dedizierten Beschleunigern. Die jüngsten Fortschritte in der CPU-Technologie stellen dieses Paradigma jedoch in Frage, was darauf hindeutet, dass CPUs kleinere generative KI-Modelle effektiv bewältigen können.

Performance Enhancements through Software Optimizations and Hardware Improvements

Leistungssteigerungen durch Softwareoptimierungen und Hardwareverbesserungen

Traditionally, running large language models (LLMs) on CPU cores has been hampered by slower performance. However, ongoing software optimizations and hardware enhancements are bridging this performance gap.

Traditionell wurde die Ausführung großer Sprachmodelle (LLMs) auf CPU-Kernen durch eine langsamere Leistung behindert. Allerdings schließen fortlaufende Softwareoptimierungen und Hardwareverbesserungen diese Leistungslücke.

Intel has showcased promising results with its upcoming Granite Rapids Xeon 6 processor, demonstrating the ability to run Meta's Llama2-70B model at 82 milliseconds (ms) of second token latency, a significant improvement over its previous Xeon processors. Oracle has also reported impressive performance running the Llama2-7B model on Ampere's Altra CPUs, achieving throughput ranging from 33 to 119 tokens per second.

Intel hat mit seinem kommenden Granite Rapids Xeon 6-Prozessor vielversprechende Ergebnisse vorgelegt und die Fähigkeit demonstriert, das Llama2-70B-Modell von Meta mit einer zweiten Token-Latenz von 82 Millisekunden (ms) auszuführen, was eine deutliche Verbesserung gegenüber seinen vorherigen Xeon-Prozessoren darstellt. Oracle hat auch eine beeindruckende Leistung beim Betrieb des Llama2-7B-Modells auf den Altra-CPUs von Ampere gemeldet und einen Durchsatz von 33 bis 119 Token pro Sekunde erreicht.

Customizations and Collaborations Enhance Performance

Anpassungen und Kooperationen steigern die Leistung

These performance gains are attributed to custom software libraries and optimizations made in collaboration with Oracle. Intel and Oracle have subsequently shared performance data for Meta's newly launched Llama3 models, which exhibit similar characteristics.

Diese Leistungssteigerungen sind auf benutzerdefinierte Softwarebibliotheken und Optimierungen zurückzuführen, die in Zusammenarbeit mit Oracle vorgenommen wurden. Intel und Oracle haben anschließend Leistungsdaten für die neu eingeführten Llama3-Modelle von Meta geteilt, die ähnliche Eigenschaften aufweisen.

Suitability for Small Models and Potential for Modestly Sized Models

Eignung für kleine Modelle und Potenzial für mittelgroße Modelle

Based on the available performance data, CPUs have emerged as a viable option for running small generative AI models. It is anticipated that CPUs may soon be capable of handling modestly sized models, especially at lower batch sizes.

Basierend auf den verfügbaren Leistungsdaten haben sich CPUs als praktikable Option für die Ausführung kleiner generativer KI-Modelle herausgestellt. Es wird erwartet, dass CPUs bald in der Lage sein werden, Modelle mittlerer Größe zu verarbeiten, insbesondere bei kleineren Losgrößen.

Persistent Bottlenecks Limit Replaceability of GPUs and Accelerators for Larger Models

Persistent Bottlenecks Limit Replaceability of GPUs and Accelerators for Larger Models

While CPUs demonstrate improved performance for generative AI workloads, it is important to note that various compute and memory bottlenecks prevent them from fully replacing GPUs or dedicated accelerators for larger models. For state-of-the-art generative AI models, specialized products like Intel's Gaudi accelerator are still necessary.

Während CPUs eine verbesserte Leistung für generative KI-Workloads aufweisen, ist es wichtig zu beachten, dass verschiedene Rechen- und Speicherengpässe sie daran hindern, GPUs oder dedizierte Beschleuniger für größere Modelle vollständig zu ersetzen. Für hochmoderne generative KI-Modelle sind weiterhin spezielle Produkte wie der Gaudi-Beschleuniger von Intel erforderlich.

Overcoming Memory Limitations through Innovative Technologies

Überwindung von Speicherbeschränkungen durch innovative Technologien

Unlike GPUs, CPUs rely on less expensive and more capacious DRAM modules for memory, which presents a significant advantage for running large models. However, CPUs are constrained by limited memory bandwidth compared to GPUs with HBM modules.

Im Gegensatz zu GPUs sind CPUs auf kostengünstigere und größere DRAM-Module für den Speicher angewiesen, was einen erheblichen Vorteil für den Betrieb großer Modelle darstellt. Allerdings sind CPUs im Vergleich zu GPUs mit HBM-Modulen durch eine begrenzte Speicherbandbreite eingeschränkt.

Intel's Granite Rapids Xeon 6 platform addresses this limitation with the introduction of Multiplexer Combined Rank (MCR) DIMMs, which facilitate much faster memory access. This technology, combined with Intel's enhanced AMX engine, doubles the effective performance and reduces model footprint and memory requirements.

Die Granite Rapids Xeon 6-Plattform von Intel behebt diese Einschränkung mit der Einführung von MCR-DIMMs (Multiplexer Combined Rank), die einen wesentlich schnelleren Speicherzugriff ermöglichen. In Kombination mit der verbesserten AMX-Engine von Intel verdoppelt diese Technologie die effektive Leistung und reduziert den Platzbedarf und den Speicherbedarf des Modells.

Balanced Approach to AI Capability Optimization

Ausgewogener Ansatz zur Optimierung der KI-Fähigkeiten

CPU designers face the challenge of optimizing their products for a wide range of AI models. Instead of prioritizing the ability to run the most demanding LLMs, vendors focus on identifying the distribution of models and targeting enterprise-grade workloads.

CPU-Designer stehen vor der Herausforderung, ihre Produkte für eine Vielzahl von KI-Modellen zu optimieren. Anstatt die Fähigkeit zur Ausführung der anspruchsvollsten LLMs zu priorisieren, konzentrieren sich Anbieter auf die Ermittlung der Modellverteilung und die Ausrichtung auf Workloads der Enterprise-Klasse.

Data from both Intel and Ampere suggests that the sweet spot for AI models in the current market lies within the 7-13 billion parameter range. These models are expected to remain mainstream, while frontier models may continue to grow in size at a slower pace.

Daten von Intel und Ampere deuten darauf hin, dass der Sweet Spot für KI-Modelle auf dem aktuellen Markt im Parameterbereich von 7 bis 13 Milliarden liegt. Es wird erwartet, dass diese Modelle Mainstream bleiben, während Grenzmodelle möglicherweise weiterhin langsamer an Größe zunehmen.

Competitive Performance Against GPUs at Low Batch Sizes

Konkurrenzfähige Leistung gegenüber GPUs bei geringen Chargengrößen

Ampere's testing revealed competitive performance between its CPUs and Arm CPUs from AWS and Nvidia's A10 GPU for small batch sizes. However, GPUs gain an advantage at higher batch sizes due to their massive compute capacity.

Die Tests von Ampere zeigten eine konkurrenzfähige Leistung zwischen seinen CPUs und Arm-CPUs von AWS und Nvidias A10-GPU für kleine Losgrößen. Aufgrund ihrer enormen Rechenkapazität sind GPUs jedoch bei höheren Batch-Größen im Vorteil.

Nonetheless, Ampere argues that the scalability of CPUs makes them more suitable for enterprise environments where the need for large-scale parallel processing is less common.

Dennoch argumentiert Ampere, dass die Skalierbarkeit von CPUs sie für Unternehmensumgebungen geeigneter macht, in denen der Bedarf an umfangreicher Parallelverarbeitung weniger verbreitet ist.

Conclusion

Abschluss

As generative AI technology evolves, CPUs are emerging as a viable option for running small and potentially modestly sized models, thanks to ongoing performance enhancements and innovative memory solutions. While GPUs and dedicated accelerators remain essential for larger models, CPUs are poised to play a significant role in the practical deployment of AI solutions for enterprise applications.

Mit der Weiterentwicklung der generativen KI-Technologie entwickeln sich CPUs dank kontinuierlicher Leistungsverbesserungen und innovativer Speicherlösungen zu einer praktikablen Option für den Betrieb kleiner und potenziell bescheidener Modelle. Während GPUs und dedizierte Beschleuniger für größere Modelle weiterhin unverzichtbar sind, werden CPUs voraussichtlich eine wichtige Rolle bei der praktischen Bereitstellung von KI-Lösungen für Unternehmensanwendungen spielen.

Haftungsausschluss:info@kdj.com

Die bereitgestellten Informationen stellen keine Handelsberatung dar. kdj.com übernimmt keine Verantwortung für Investitionen, die auf der Grundlage der in diesem Artikel bereitgestellten Informationen getätigt werden. Kryptowährungen sind sehr volatil und es wird dringend empfohlen, nach gründlicher Recherche mit Vorsicht zu investieren！

Wenn Sie glauben, dass der auf dieser Website verwendete Inhalt Ihr Urheberrecht verletzt, kontaktieren Sie uns bitte umgehend (info@kdj.com) und wir werden ihn umgehend löschen.

Weitere Artikel veröffentlicht am Mar 05, 2025

Mehr