|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
오늘 블로그 게시물에서 Apple 엔지니어들은 대규모 언어 모델로 더 빠른 텍스트 생성 성능을 구현하기 위해 NVIDIA와의 협력에 대한 새로운 세부 정보를 공유했습니다.
Apple engineers have shared new details on a collaboration with NVIDIA to implement faster text generation performance with large language models (LLMs).
Apple 엔지니어들은 LLM(대형 언어 모델)으로 더 빠른 텍스트 생성 성능을 구현하기 위해 NVIDIA와의 협력에 대한 새로운 세부 정보를 공유했습니다.
Earlier this year, Apple published and open sourced its Recurrent Drafter (ReDrafter) technique, a new method for generating text with LLMs that’s significantly faster and “achieves state of the art performance.” It combines two techniques: beam search (to explore multiple possibilities) and dynamic tree attention (to efficiently handle choices).
올해 초 Apple은 훨씬 더 빠르고 "최첨단 성능을 달성"하는 LLM을 사용하여 텍스트를 생성하는 새로운 방법인 ReDrafter(Recurrent Drafter) 기술을 공개하고 오픈 소스화했습니다. 이는 빔 검색(여러 가능성 탐색)과 동적 트리 주의(선택 사항을 효율적으로 처리하기 위해)라는 두 가지 기술을 결합합니다.
While its research demonstrated strong results, Apple also collaborated with NVIDIA to apply ReDrafter in production. As part of this collaboration, ReDrafter was integrated into NVIDIA TensorRT-LLM, a tool that helps run LLMs faster on NVIDIA GPUs.
연구에서 강력한 결과가 입증되었지만 Apple은 NVIDIA와 협력하여 ReDrafter를 프로덕션에 적용하기도 했습니다. 이 협업의 일환으로 ReDrafter는 NVIDIA GPU에서 LLM을 더 빠르게 실행하는 데 도움이 되는 도구인 NVIDIA TensorRT-LLM에 통합되었습니다.
Here are the results:
결과는 다음과 같습니다.
To enable the integration of ReDrafter, NVIDIA added new operators or exposed existing ones, which considerably improved TensorRT-LLM’s capability to accommodate sophisticated models and decoding methods. ML developers using NVIDIA GPUs can now easily benefit from ReDrafter’s accelerated token generation for their production LLM applications with TensorRT-LLM.
ReDrafter 통합을 활성화하기 위해 NVIDIA는 새로운 연산자를 추가하거나 기존 연산자를 노출하여 정교한 모델과 디코딩 방법을 수용할 수 있는 TensorRT-LLM의 기능을 크게 향상시켰습니다. NVIDIA GPU를 사용하는 ML 개발자는 이제 TensorRT-LLM을 사용하는 프로덕션 LLM 애플리케이션을 위한 ReDrafter의 가속화된 토큰 생성을 통해 쉽게 이점을 얻을 수 있습니다.
In benchmarking a tens-of-billions parameter production model on NVIDIA GPUs, using the NVIDIA TensorRT-LLM inference acceleration framework with ReDrafter, we have seen 2.7x speed-up in generated tokens per second for greedy decoding. These benchmark results indicate this tech could significantly reduce latency users may experience, while also using fewer GPUs and consuming less power.
ReDrafter가 포함된 NVIDIA TensorRT-LLM 추론 가속 프레임워크를 사용하여 NVIDIA GPU에서 수백억 개의 매개변수 생성 모델을 벤치마킹하면서 그리디 디코딩을 위해 초당 생성된 토큰 속도가 2.7배 향상되는 것을 확인했습니다. 이러한 벤치마크 결과는 이 기술이 사용자가 경험할 수 있는 지연 시간을 크게 줄이는 동시에 더 적은 수의 GPU를 사용하고 더 적은 전력을 소비할 수 있음을 나타냅니다.
“LLMs are increasingly being used to power production applications, and improving inference efficiency can both impact computational costs and reduce latency for users,” Apple’s machine learning researchers conclude. “With ReDrafter’s novel approach to speculative decoding integrated into the NVIDIA TensorRT-LLM framework, developers can now benefit from faster token generation on NVIDIA GPUs for their production LLM applications.”
Apple의 기계 학습 연구자들은 "LLM은 프로덕션 애플리케이션을 강화하는 데 점점 더 많이 사용되고 있으며 추론 효율성을 개선하면 계산 비용에 영향을 미치고 사용자의 대기 시간을 줄일 수 있습니다"라고 결론지었습니다. "NVIDIA TensorRT-LLM 프레임워크에 통합된 추측 디코딩에 대한 ReDrafter의 새로운 접근 방식을 통해 개발자는 이제 프로덕션 LLM 애플리케이션을 위해 NVIDIA GPU에서 더 빠른 토큰 생성의 이점을 누릴 수 있습니다."
You can learn more about this work on Apple’s website and in a blog post on NVIDIA’s website.
Apple 웹사이트와 NVIDIA 웹사이트의 블로그 게시물에서 이 작업에 대해 자세히 알아볼 수 있습니다.
부인 성명:info@kdj.com
The information provided is not trading advice. kdj.com does not assume any responsibility for any investments made based on the information provided in this article. Cryptocurrencies are highly volatile and it is highly recommended that you invest with caution after thorough research!
If you believe that the content used on this website infringes your copyright, please contact us immediately (info@kdj.com) and we will delete it promptly.