$83866.330841 USD

1.10%

ethereum

$1813.856658 USD

1.17%

tether

$0.999635 USD

-0.01%

xrp

$2.119598 USD

3.11%

bnb

$597.151856 USD

0.66%

solana

$121.000827 USD

4.92%

usd-coin

$0.999962 USD

-0.01%

dogecoin

$0.169845 USD

5.02%

cardano

$0.659954 USD

1.59%

tron

$0.238468 USD

-0.33%

unus-sed-leo

$9.192940 USD

-3.85%

chainlink

$12.887613 USD

1.16%

toncoin

$3.312822 USD

-6.18%

stellar

$0.259431 USD

-0.16%

avalanche

$18.154746 USD

0.32%

Articles d’actualité sur les crypto-monnaies

DeepSeek-V3 : un modèle de langage mixte d'experts 671B de DeepSeek-AI

Dec 27, 2024 at 12:32 pm

Le domaine du traitement du langage naturel (NLP) a fait des progrès significatifs avec le développement de modèles de langage à grande échelle (LLM). Cependant, ces progrès ont apporté leur lot de défis. La formation et l'inférence nécessitent des ressources informatiques substantielles, la disponibilité d'ensembles de données diversifiés et de haute qualité est essentielle et parvenir à une utilisation équilibrée dans les architectures mixtes d'experts (MoE) reste complexe. Ces facteurs contribuent à l'inefficacité et à l'augmentation des coûts, posant des obstacles à la mise à l'échelle des modèles open source pour correspondre à leurs homologues propriétaires. De plus, garantir la robustesse et la stabilité pendant l’entraînement est un problème permanent, car même des instabilités mineures peuvent perturber les performances et nécessiter des interventions coûteuses.

DeepSeek-AI has announced the release of DeepSeek-V3, a 671B Mixture-of-Experts (MoE) language model with 37B parameters activated per token. This latest model builds upon DeepSeek-AI's previous work on Multi-Head Latent Attention (MLA) and DeepSeekMoE architectures, which were refined in DeepSeek-V2 and DeepSeek-V2.5. DeepSeek-V3 is trained on a massive dataset of 14.8 trillion high-quality tokens, ensuring a broad and diverse knowledge base. Notably, DeepSeek-V3 is fully open-source, with accessible models, papers, and training frameworks for the research community to explore.

DeepSeek-AI a annoncé la sortie de DeepSeek-V3, un modèle de langage Mixture-of-Experts (MoE) 671B avec 37B de paramètres activés par jeton. Ce dernier modèle s'appuie sur les travaux antérieurs de DeepSeek-AI sur les architectures Multi-Head Latent Attention (MLA) et DeepSeekMoE, qui ont été affinés dans DeepSeek-V2 et DeepSeek-V2.5. DeepSeek-V3 est formé sur un ensemble de données massif de 14 800 milliards de jetons de haute qualité, garantissant une base de connaissances large et diversifiée. Notamment, DeepSeek-V3 est entièrement open source, avec des modèles, des articles et des cadres de formation accessibles que la communauté des chercheurs peut explorer.

Technical Details and BenefitsSeveral innovations are incorporated into DeepSeek-V3 to address long-standing challenges in the field. An auxiliary-loss-free load balancing strategy efficiently distributes computational loads across experts while maintaining model performance. Moreover, a multi-token prediction training objective enhances data efficiency and enables faster inference through speculative decoding.

Détails techniques et avantages Plusieurs innovations sont intégrées dans DeepSeek-V3 pour relever les défis de longue date dans le domaine. Une stratégie d'équilibrage de charge auxiliaire sans perte répartit efficacement les charges de calcul entre les experts tout en maintenant les performances du modèle. De plus, un objectif de formation à la prédiction multi-jetons améliore l’efficacité des données et permet une inférence plus rapide grâce au décodage spéculatif.

Additionally, FP8 mixed precision training improves computational efficiency by reducing GPU memory usage without sacrificing accuracy. The DualPipe algorithm further minimizes pipeline bubbles by overlapping computation and communication phases, reducing all-to-all communication overhead. These advancements allow DeepSeek-V3 to process 60 tokens per second during inference—a significant improvement over DeepSeek-V2.5.

De plus, l'entraînement de précision mixte FP8 améliore l'efficacité des calculs en réduisant l'utilisation de la mémoire GPU sans sacrifier la précision. L'algorithme DualPipe minimise davantage les bulles de pipeline en chevauchant les phases de calcul et de communication, réduisant ainsi la surcharge de communication globale. Ces avancées permettent à DeepSeek-V3 de traiter 60 jetons par seconde pendant l'inférence, soit une amélioration significative par rapport à DeepSeek-V2.5.

Performance Insights and ResultsDeepSeek-V3 is evaluated across multiple benchmarks, showcasing strong performance. On educational datasets like MMLU and MMLU-Pro, DeepSeek-V3 achieves scores of 88.5 and 75.9, respectively, outperforming other open-source models. In mathematical reasoning tasks, DeepSeek-V3 sets new standards with a score of 90.2 on MATH-500. The model also performs exceptionally in coding benchmarks such as LiveCodeBench.

Performance Insights et ResultsDeepSeek-V3 est évalué sur plusieurs critères, démontrant de solides performances. Sur des ensembles de données éducatives comme MMLU et MMLU-Pro, DeepSeek-V3 obtient des scores de 88,5 et 75,9, respectivement, surpassant les autres modèles open source. Dans les tâches de raisonnement mathématique, DeepSeek-V3 établit de nouvelles normes avec un score de 90,2 sur MATH-500. Le modèle fonctionne également exceptionnellement dans les tests de codage tels que LiveCodeBench.

Despite these achievements, the training cost is kept relatively low at $5.576 million, requiring only 2.788 million H800 GPU hours. These results highlight DeepSeek-V3’s efficiency and its potential to make high-performance LLMs more accessible.

Malgré ces réalisations, le coût de la formation reste relativement faible à 5,576 millions de dollars, ne nécessitant que 2,788 millions d'heures de GPU H800. Ces résultats mettent en évidence l'efficacité de DeepSeek-V3 et son potentiel à rendre les LLM hautes performances plus accessibles.

ConclusionDeepSeek-V3 marks a significant advancement in open-source NLP research. By tackling the computational and architectural challenges associated with large-scale language models, DeepSeek-AI establishes a new benchmark for efficiency and performance. DeepSeek-V3 sets a new standard for open-source LLMs, achieving a balance of performance and efficiency that makes it a competitive alternative to proprietary models. DeepSeek-AI's commitment to open-source development ensures that the broader research community can benefit from its advancements.

ConclusionDeepSeek-V3 marque une avancée significative dans la recherche open source en PNL. En relevant les défis informatiques et architecturaux associés aux modèles de langage à grande échelle, DeepSeek-AI établit une nouvelle référence en matière d'efficacité et de performances. DeepSeek-V3 établit une nouvelle norme pour les LLM open source, atteignant un équilibre entre performances et efficacité qui en fait une alternative compétitive aux modèles propriétaires. L'engagement de DeepSeek-AI en faveur du développement open source garantit que la communauté de recherche au sens large peut bénéficier de ses avancées.

Check out the Paper, GitHub Page, and Model on Hugging Face. All credit for this research goes to the researchers of this project. Also, don’t forget to follow us on Twitter and join our Telegram Channel and LinkedIn Group. Don’t Forget to join our 60k+ ML SubReddit.

Consultez le document, la page GitHub et le modèle sur Hugging Face. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N'oubliez pas non plus de nous suivre sur Twitter et de rejoindre notre chaîne Telegram et notre groupe LinkedIn. N'oubliez pas de rejoindre notre SubReddit de plus de 60 000 ML.

Trending: LG AI Research Releases EXAONE 3.5: Three Open-Source Bilingual Frontier AI-level Models

Tendance : LG AI Research publie EXAONE 3.5 : trois modèles Open Source bilingues de niveau IA Frontier

Clause de non-responsabilité:info@kdj.com

Les informations fournies ne constituent pas des conseils commerciaux. kdj.com n’assume aucune responsabilité pour les investissements effectués sur la base des informations fournies dans cet article. Les crypto-monnaies sont très volatiles et il est fortement recommandé d’investir avec prudence après une recherche approfondie！

Si vous pensez que le contenu utilisé sur ce site Web porte atteinte à vos droits d’auteur, veuillez nous contacter immédiatement (info@kdj.com) et nous le supprimerons dans les plus brefs délais.

Autres articles publiés sur Apr 05, 2025

Plus