시가총액: $2.8652T 1.720%
거래량(24시간): $167.4691B -3.630%
  • 시가총액: $2.8652T 1.720%
  • 거래량(24시간): $167.4691B -3.630%
  • 공포와 탐욕 지수:
  • 시가총액: $2.8652T 1.720%
Cryptos
주제
Cryptospedia
소식
CryptosTopics
비디오
Top News
Cryptos
주제
Cryptospedia
소식
CryptosTopics
비디오
bitcoin
bitcoin

$83666.044617 USD

-8.76%

ethereum
ethereum

$2091.944091 USD

-11.63%

tether
tether

$0.999558 USD

-0.02%

xrp
xrp

$2.319688 USD

-12.64%

bnb
bnb

$563.625816 USD

-6.10%

solana
solana

$136.566716 USD

-15.32%

usd-coin
usd-coin

$0.999829 USD

0.00%

dogecoin
dogecoin

$0.192157 USD

-12.05%

cardano
cardano

$0.807339 USD

-19.23%

tron
tron

$0.232527 USD

-2.68%

pi
pi

$1.767751 USD

7.51%

hedera
hedera

$0.225984 USD

-9.41%

unus-sed-leo
unus-sed-leo

$9.939243 USD

-0.10%

chainlink
chainlink

$13.904662 USD

-14.14%

stellar
stellar

$0.283124 USD

-14.81%

암호화폐 뉴스 기사

CPU가 소규모 생성 AI 모델의 경쟁자로 등장

2024/05/01 19:24

CPU 기반 생성 AI: Intel과 Ampere는 자사의 칩이 더 작은 모델을 처리할 수 있다고 주장합니다. 최적화 및 하드웨어 개선으로 CPU 전용 AI와 관련된 성능 저하가 줄어듭니다. Intel의 Granite Rapids Xeon 6 및 Ampere의 Altra CPU는 소규모 LLM으로 유망한 결과를 보여줍니다. CPU는 메모리 및 컴퓨팅 병목 현상으로 인해 대형 모델의 GPU를 대체할 수 없지만 소형 모델을 처리하는 엔터프라이즈 애플리케이션에는 잠재력을 보여줍니다.

CPU가 소규모 생성 AI 모델의 경쟁자로 등장

CPUs Emerge as Viable Option for Running Small Generative AI Models

소규모 생성 AI 모델 실행을 위한 실행 가능한 옵션으로 CPU 등장

Amidst the proliferation of generative AI chatbots like ChatGPT and Gemini, discussions have centered on their dependence on high-performance computing resources such as GPUs and dedicated accelerators. However, recent advancements in CPU technology are challenging this paradigm, suggesting that CPUs can effectively handle smaller generative AI models.

ChatGPT 및 Gemini와 같은 생성 AI 챗봇이 확산되는 가운데 GPU 및 전용 가속기와 같은 고성능 컴퓨팅 리소스에 대한 의존도에 대한 논의가 집중되었습니다. 그러나 최근 CPU 기술의 발전은 이러한 패러다임에 도전하고 있으며, 이는 CPU가 더 작은 생성 AI 모델을 효과적으로 처리할 수 있음을 시사합니다.

Performance Enhancements through Software Optimizations and Hardware Improvements

소프트웨어 최적화 및 하드웨어 개선을 통한 성능 향상

Traditionally, running large language models (LLMs) on CPU cores has been hampered by slower performance. However, ongoing software optimizations and hardware enhancements are bridging this performance gap.

전통적으로 CPU 코어에서 LLM(대규모 언어 모델)을 실행하는 것은 성능 저하로 인해 방해를 받았습니다. 그러나 지속적인 소프트웨어 최적화와 하드웨어 개선을 통해 이러한 성능 격차가 해소되고 있습니다.

Intel has showcased promising results with its upcoming Granite Rapids Xeon 6 processor, demonstrating the ability to run Meta's Llama2-70B model at 82 milliseconds (ms) of second token latency, a significant improvement over its previous Xeon processors. Oracle has also reported impressive performance running the Llama2-7B model on Ampere's Altra CPUs, achieving throughput ranging from 33 to 119 tokens per second.

Intel은 곧 출시될 Granite Rapids Xeon 6 프로세서로 유망한 결과를 선보였으며, Meta의 Llama2-70B 모델을 82밀리초(ms)의 두 번째 토큰 대기 시간으로 실행할 수 있는 능력을 보여 주었습니다. 이는 이전 Xeon 프로세서에 비해 크게 향상된 것입니다. Oracle은 또한 Ampere의 Altra CPU에서 Llama2-7B 모델을 실행하여 초당 33~119개 토큰 범위의 처리량을 달성하는 인상적인 성능을 보고했습니다.

Customizations and Collaborations Enhance Performance

사용자 정의 및 협업으로 성능 향상

These performance gains are attributed to custom software libraries and optimizations made in collaboration with Oracle. Intel and Oracle have subsequently shared performance data for Meta's newly launched Llama3 models, which exhibit similar characteristics.

이러한 성능 향상은 Oracle과의 협력을 통해 이루어진 맞춤형 소프트웨어 라이브러리 및 최적화 덕분입니다. 이후 Intel과 Oracle은 유사한 특성을 보이는 Meta가 새로 출시한 Llama3 모델에 대한 성능 데이터를 공유했습니다.

Suitability for Small Models and Potential for Modestly Sized Models

작은 모델에 대한 적합성과 적당한 크기의 모델에 대한 가능성

Based on the available performance data, CPUs have emerged as a viable option for running small generative AI models. It is anticipated that CPUs may soon be capable of handling modestly sized models, especially at lower batch sizes.

사용 가능한 성능 데이터를 기반으로 CPU는 소규모 생성 AI 모델을 실행하기 위한 실행 가능한 옵션으로 등장했습니다. CPU는 곧 적당한 크기의 모델, 특히 낮은 배치 크기의 모델을 처리할 수 있을 것으로 예상됩니다.

Persistent Bottlenecks Limit Replaceability of GPUs and Accelerators for Larger Models

지속적인 병목 현상으로 인해 대형 모델의 GPU 및 가속기 교체 가능성이 제한됨

While CPUs demonstrate improved performance for generative AI workloads, it is important to note that various compute and memory bottlenecks prevent them from fully replacing GPUs or dedicated accelerators for larger models. For state-of-the-art generative AI models, specialized products like Intel's Gaudi accelerator are still necessary.

CPU는 생성적 AI 워크로드에 대해 향상된 성능을 보여 주지만, 다양한 컴퓨팅 및 메모리 병목 현상으로 인해 더 큰 모델의 GPU 또는 전용 가속기를 완전히 대체할 수 없다는 점에 유의하는 것이 중요합니다. 최첨단 생성 AI 모델을 위해서는 여전히 인텔의 가우디 가속기와 같은 특화된 제품이 필요하다.

Overcoming Memory Limitations through Innovative Technologies

혁신적인 기술을 통한 메모리 한계 극복

Unlike GPUs, CPUs rely on less expensive and more capacious DRAM modules for memory, which presents a significant advantage for running large models. However, CPUs are constrained by limited memory bandwidth compared to GPUs with HBM modules.

GPU와 달리 CPU는 메모리에 더 저렴하고 더 큰 용량의 DRAM 모듈을 사용하므로 대규모 모델을 실행하는 데 상당한 이점을 제공합니다. 그러나 CPU는 HBM 모듈이 있는 GPU에 비해 ​​제한된 메모리 대역폭으로 인해 제한됩니다.

Intel's Granite Rapids Xeon 6 platform addresses this limitation with the introduction of Multiplexer Combined Rank (MCR) DIMMs, which facilitate much faster memory access. This technology, combined with Intel's enhanced AMX engine, doubles the effective performance and reduces model footprint and memory requirements.

Intel의 Granite Rapids Xeon 6 플랫폼은 훨씬 더 빠른 메모리 액세스를 가능하게 하는 MCR(Multiplexer Combined Rank) DIMM을 도입하여 이러한 제한을 해결합니다. Intel의 향상된 AMX 엔진과 결합된 이 기술은 효과적인 성능을 두 배로 늘리고 모델 공간과 메모리 요구 사항을 줄입니다.

Balanced Approach to AI Capability Optimization

AI 역량 최적화에 대한 균형 잡힌 접근 방식

CPU designers face the challenge of optimizing their products for a wide range of AI models. Instead of prioritizing the ability to run the most demanding LLMs, vendors focus on identifying the distribution of models and targeting enterprise-grade workloads.

CPU 설계자는 광범위한 AI 모델에 맞게 제품을 최적화해야 하는 과제에 직면해 있습니다. 공급업체는 가장 까다로운 LLM을 실행하는 능력을 우선시하는 대신 모델 분포를 식별하고 엔터프라이즈급 워크로드를 목표로 삼는 데 중점을 둡니다.

Data from both Intel and Ampere suggests that the sweet spot for AI models in the current market lies within the 7-13 billion parameter range. These models are expected to remain mainstream, while frontier models may continue to grow in size at a slower pace.

Intel과 Ampere의 데이터에 따르면 현재 시장에서 AI 모델의 최적 지점은 70억~130억 개의 매개변수 범위 내에 있습니다. 이러한 모델은 주류로 남을 것으로 예상되는 반면, 프론티어 모델은 더 느린 속도로 규모가 계속 성장할 수 있습니다.

Competitive Performance Against GPUs at Low Batch Sizes

낮은 배치 크기에서 GPU 대비 경쟁력 있는 성능

Ampere's testing revealed competitive performance between its CPUs and Arm CPUs from AWS and Nvidia's A10 GPU for small batch sizes. However, GPUs gain an advantage at higher batch sizes due to their massive compute capacity.

Ampere의 테스트에서는 소규모 배치 크기에 대해 AWS의 CPU와 Arm CPU, Nvidia의 A10 GPU 간에 경쟁력 있는 성능이 나타났습니다. 그러나 GPU는 엄청난 컴퓨팅 용량으로 인해 더 높은 배치 크기에서 이점을 얻습니다.

Nonetheless, Ampere argues that the scalability of CPUs makes them more suitable for enterprise environments where the need for large-scale parallel processing is less common.

그럼에도 불구하고 Ampere는 CPU의 확장성으로 인해 대규모 병렬 처리의 필요성이 덜 일반적인 기업 환경에 더 적합하다고 주장합니다.

Conclusion

결론

As generative AI technology evolves, CPUs are emerging as a viable option for running small and potentially modestly sized models, thanks to ongoing performance enhancements and innovative memory solutions. While GPUs and dedicated accelerators remain essential for larger models, CPUs are poised to play a significant role in the practical deployment of AI solutions for enterprise applications.

생성 AI 기술이 발전함에 따라 지속적인 성능 향상과 혁신적인 메모리 솔루션 덕분에 CPU는 작고 잠재적으로 적당한 크기의 모델을 실행하기 위한 실행 가능한 옵션으로 떠오르고 있습니다. 대규모 모델에는 GPU와 전용 가속기가 여전히 필수적이지만, CPU는 엔터프라이즈 애플리케이션을 위한 AI 솔루션의 실제 배포에서 중요한 역할을 할 준비가 되어 있습니다.

부인 성명:info@kdj.com

제공된 정보는 거래 조언이 아닙니다. kdj.com은 이 기사에 제공된 정보를 기반으로 이루어진 투자에 대해 어떠한 책임도 지지 않습니다. 암호화폐는 변동성이 매우 높으므로 철저한 조사 후 신중하게 투자하는 것이 좋습니다!

본 웹사이트에 사용된 내용이 귀하의 저작권을 침해한다고 판단되는 경우, 즉시 당사(info@kdj.com)로 연락주시면 즉시 삭제하도록 하겠습니다.

2025年03月05日 에 게재된 다른 기사