Capitalisation boursière: $3.487T -3.740%
Volume(24h): $105.9816B 0.300%
  • Capitalisation boursière: $3.487T -3.740%
  • Volume(24h): $105.9816B 0.300%
  • Indice de peur et de cupidité:
  • Capitalisation boursière: $3.487T -3.740%
Cryptos
Les sujets
Cryptospedia
Nouvelles
CryptosTopics
Vidéos
Top News
Cryptos
Les sujets
Cryptospedia
Nouvelles
CryptosTopics
Vidéos
bitcoin
bitcoin

$102418.358867 USD

-1.97%

ethereum
ethereum

$3298.096549 USD

1.21%

xrp
xrp

$3.048127 USD

-1.30%

tether
tether

$0.999866 USD

-0.01%

solana
solana

$231.464380 USD

-2.61%

bnb
bnb

$675.655067 USD

-0.56%

usd-coin
usd-coin

$0.999928 USD

-0.01%

dogecoin
dogecoin

$0.327988 USD

-0.25%

cardano
cardano

$0.945324 USD

-1.12%

tron
tron

$0.256233 USD

0.65%

chainlink
chainlink

$25.471085 USD

1.61%

avalanche
avalanche

$34.603954 USD

-1.17%

stellar
stellar

$0.416369 USD

-2.01%

sui
sui

$4.058447 USD

-3.89%

toncoin
toncoin

$4.893106 USD

1.10%

Articles d’actualité sur les crypto-monnaies

DeepSeek-V3 : un modèle de langage mixte d'experts 671B de DeepSeek-AI

Dec 27, 2024 at 12:32 pm

Le domaine du traitement du langage naturel (NLP) a fait des progrès significatifs avec le développement de modèles de langage à grande échelle (LLM). Cependant, ces progrès ont apporté leur lot de défis. La formation et l'inférence nécessitent des ressources informatiques substantielles, la disponibilité d'ensembles de données diversifiés et de haute qualité est essentielle et parvenir à une utilisation équilibrée dans les architectures mixtes d'experts (MoE) reste complexe. Ces facteurs contribuent à l'inefficacité et à l'augmentation des coûts, posant des obstacles à la mise à l'échelle des modèles open source pour correspondre à leurs homologues propriétaires. De plus, garantir la robustesse et la stabilité pendant l’entraînement est un problème permanent, car même des instabilités mineures peuvent perturber les performances et nécessiter des interventions coûteuses.

DeepSeek-V3 : un modèle de langage mixte d'experts 671B de DeepSeek-AI

DeepSeek-AI has announced the release of DeepSeek-V3, a 671B Mixture-of-Experts (MoE) language model with 37B parameters activated per token. This latest model builds upon DeepSeek-AI's previous work on Multi-Head Latent Attention (MLA) and DeepSeekMoE architectures, which were refined in DeepSeek-V2 and DeepSeek-V2.5. DeepSeek-V3 is trained on a massive dataset of 14.8 trillion high-quality tokens, ensuring a broad and diverse knowledge base. Notably, DeepSeek-V3 is fully open-source, with accessible models, papers, and training frameworks for the research community to explore.

DeepSeek-AI a annoncé la sortie de DeepSeek-V3, un modèle de langage Mixture-of-Experts (MoE) 671B avec 37B de paramètres activés par jeton. Ce dernier modèle s'appuie sur les travaux antérieurs de DeepSeek-AI sur les architectures Multi-Head Latent Attention (MLA) et DeepSeekMoE, qui ont été affinés dans DeepSeek-V2 et DeepSeek-V2.5. DeepSeek-V3 est formé sur un ensemble de données massif de 14 800 milliards de jetons de haute qualité, garantissant une base de connaissances large et diversifiée. Notamment, DeepSeek-V3 est entièrement open source, avec des modèles, des articles et des cadres de formation accessibles que la communauté des chercheurs peut explorer.

Technical Details and BenefitsSeveral innovations are incorporated into DeepSeek-V3 to address long-standing challenges in the field. An auxiliary-loss-free load balancing strategy efficiently distributes computational loads across experts while maintaining model performance. Moreover, a multi-token prediction training objective enhances data efficiency and enables faster inference through speculative decoding.

Détails techniques et avantages Plusieurs innovations sont intégrées dans DeepSeek-V3 pour relever les défis de longue date dans le domaine. Une stratégie d'équilibrage de charge auxiliaire sans perte répartit efficacement les charges de calcul entre les experts tout en maintenant les performances du modèle. De plus, un objectif de formation à la prédiction multi-jetons améliore l’efficacité des données et permet une inférence plus rapide grâce au décodage spéculatif.

Additionally, FP8 mixed precision training improves computational efficiency by reducing GPU memory usage without sacrificing accuracy. The DualPipe algorithm further minimizes pipeline bubbles by overlapping computation and communication phases, reducing all-to-all communication overhead. These advancements allow DeepSeek-V3 to process 60 tokens per second during inference—a significant improvement over DeepSeek-V2.5.

De plus, l'entraînement de précision mixte FP8 améliore l'efficacité des calculs en réduisant l'utilisation de la mémoire GPU sans sacrifier la précision. L'algorithme DualPipe minimise davantage les bulles de pipeline en chevauchant les phases de calcul et de communication, réduisant ainsi la surcharge de communication globale. Ces avancées permettent à DeepSeek-V3 de traiter 60 jetons par seconde pendant l'inférence, soit une amélioration significative par rapport à DeepSeek-V2.5.

Performance Insights and ResultsDeepSeek-V3 is evaluated across multiple benchmarks, showcasing strong performance. On educational datasets like MMLU and MMLU-Pro, DeepSeek-V3 achieves scores of 88.5 and 75.9, respectively, outperforming other open-source models. In mathematical reasoning tasks, DeepSeek-V3 sets new standards with a score of 90.2 on MATH-500. The model also performs exceptionally in coding benchmarks such as LiveCodeBench.

Performance Insights et ResultsDeepSeek-V3 est évalué sur plusieurs critères, démontrant de solides performances. Sur des ensembles de données éducatives comme MMLU et MMLU-Pro, DeepSeek-V3 obtient des scores de 88,5 et 75,9, respectivement, surpassant les autres modèles open source. Dans les tâches de raisonnement mathématique, DeepSeek-V3 établit de nouvelles normes avec un score de 90,2 sur MATH-500. Le modèle fonctionne également exceptionnellement dans les tests de codage tels que LiveCodeBench.

Despite these achievements, the training cost is kept relatively low at $5.576 million, requiring only 2.788 million H800 GPU hours. These results highlight DeepSeek-V3’s efficiency and its potential to make high-performance LLMs more accessible.

Malgré ces réalisations, le coût de la formation reste relativement faible à 5,576 millions de dollars, ne nécessitant que 2,788 millions d'heures de GPU H800. Ces résultats mettent en évidence l'efficacité de DeepSeek-V3 et son potentiel à rendre les LLM hautes performances plus accessibles.

ConclusionDeepSeek-V3 marks a significant advancement in open-source NLP research. By tackling the computational and architectural challenges associated with large-scale language models, DeepSeek-AI establishes a new benchmark for efficiency and performance. DeepSeek-V3 sets a new standard for open-source LLMs, achieving a balance of performance and efficiency that makes it a competitive alternative to proprietary models. DeepSeek-AI's commitment to open-source development ensures that the broader research community can benefit from its advancements.

ConclusionDeepSeek-V3 marque une avancée significative dans la recherche open source en PNL. En relevant les défis informatiques et architecturaux associés aux modèles de langage à grande échelle, DeepSeek-AI établit une nouvelle référence en matière d'efficacité et de performances. DeepSeek-V3 établit une nouvelle norme pour les LLM open source, atteignant un équilibre entre performances et efficacité qui en fait une alternative compétitive aux modèles propriétaires. L'engagement de DeepSeek-AI en faveur du développement open source garantit que la communauté de recherche au sens large peut bénéficier de ses avancées.

Check out the Paper, GitHub Page, and Model on Hugging Face. All credit for this research goes to the researchers of this project. Also, don’t forget to follow us on Twitter and join our Telegram Channel and LinkedIn Group. Don’t Forget to join our 60k+ ML SubReddit.

Consultez le document, la page GitHub et le modèle sur Hugging Face. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N'oubliez pas non plus de nous suivre sur Twitter et de rejoindre notre chaîne Telegram et notre groupe LinkedIn. N'oubliez pas de rejoindre notre SubReddit de plus de 60 000 ML.

Trending: LG AI Research Releases EXAONE 3.5: Three Open-Source Bilingual Frontier AI-level Models

Tendance : LG AI Research publie EXAONE 3.5 : trois modèles Open Source bilingues de niveau IA Frontier

Clause de non-responsabilité:info@kdj.com

The information provided is not trading advice. kdj.com does not assume any responsibility for any investments made based on the information provided in this article. Cryptocurrencies are highly volatile and it is highly recommended that you invest with caution after thorough research!

If you believe that the content used on this website infringes your copyright, please contact us immediately (info@kdj.com) and we will delete it promptly.

Autres articles publiés sur Feb 02, 2025