|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Articles d’actualité sur les crypto-monnaies
Smolvlms: Hugging Face libère les plus petits modèles de langue de vision du monde
Jan 26, 2025 at 12:21 am
Des algorithmes d'apprentissage automatique ont été développés pour gérer de nombreuses tâches différentes, de la fabrication de prédictions aux modèles correspondants ou à la génération d'images qui correspondent
Recent years have seen a massive increase in the capabilities of machine learning algorithms, which can now perform a wide range of tasks, from making predictions to matching patterns or generating images that match text prompts. To enable them to take on such diverse roles, these models have been given a broad spectrum of capabilities, but one thing they rarely are is efficient.
Les dernières années ont connu une augmentation massive des capacités des algorithmes d'apprentissage automatique, qui peuvent désormais effectuer un large éventail de tâches, de la fabrication de prédictions aux modèles correspondants ou à la génération d'images qui correspondent aux invites de texte. Pour leur permettre d'assumer des rôles aussi divers, ces modèles ont reçu un large éventail de capacités, mais une chose qu'ils sont rarement est efficace.
In the present era of exponential growth in the field, rapid advancements often come at the expense of efficiency. It is faster, after all, to produce a very large kitchen-sink model filled with redundancies than it is to produce a lean, mean inferencing machine.
Dans l'ère actuelle de croissance exponentielle dans le domaine, les progrès rapides se font souvent au détriment de l'efficacité. Il est plus rapide, après tout, de produire un très grand modèle de chair de cuisine rempli de redondances que de produire une machine d'inférence légère.
But as these present algorithms continue to mature, more attention is being directed at slicing them down to smaller sizes. Even the most useful tools are of little value if they require such a large amount of computational resources that they are impractical for use in real-world applications. As you might expect, the more complex an algorithm is, the more challenging it is to shrink it down. That is what makes Hugging Face’s recent announcement so exciting — they have taken an axe to vision language models (VLMs), resulting in the release of new additions to the SmolVLM family — including SmolVLM-256M, the smallest VLM in the world.
Mais à mesure que ces algorithmes actuels continuent de mûrir, plus d'attention vise à les trancher à des tailles plus petites. Même les outils les plus utiles sont de peu de valeur s'ils nécessitent une telle quantité de ressources de calcul qu'elles ne sont pas pratiques pour une utilisation dans les applications du monde réel. Comme vous pouvez vous y attendre, plus un algorithme est complexe, plus il est difficile de le réduire. C'est ce qui rend l'annonce récente de Hugging Face si excitante - ils ont pris une hache à Vision Language Models (VLMS), entraînant la sortie de nouveaux ajouts à la famille Smolvlm - y compris Smolvlm-256m, le plus petit VLM au monde.
SmolVLM-256M is an impressive example of optimization done right, with just 256 million parameters. Despite its small size, this model performs very well in tasks such as captioning, document-based question answering, and basic visual reasoning, outperforming older, much larger models like the Idefics 80B from just 17 months ago. The SmolVLM-500M model provides an additional performance boost, with 500 million parameters offering a middle ground between size and capability for those needing some extra headroom.
SMOLVLM-256M est un exemple impressionnant d'optimisation bien fait, avec seulement 256 millions de paramètres. Malgré sa petite taille, ce modèle fonctionne très bien dans les tâches telles que le sous-titrage, la réponse aux questions basée sur des documents et le raisonnement visuel de base, surperformant des modèles plus anciens et beaucoup plus grands comme les IDEFics 80B d'il y a 17 mois. Le modèle SMOLVLM-500M fournit une augmentation supplémentaire des performances, avec 500 millions de paramètres offrant un terrain d'entente entre la taille et la capacité de ceux qui ont besoin d'une marge supplémentaire.
Hugging Face achieved these advancements by refining its approach to vision encoders and data mixtures. The new models adopt the SigLIP base patch-16/512 encoder, which, though smaller than its predecessor, processes images at a higher resolution. This choice aligns with recent trends seen in Apple and Google research, which emphasize higher resolution for improved visual understanding without drastically increasing parameter counts.
Le visage des câlins a réalisé ces progrès en affinant son approche des encodeurs de vision et des mélanges de données. Les nouveaux modèles adoptent l'encodeur de base de base Siglip Patch-16/512, qui, bien que plus petit que son prédécesseur, traite des images à une résolution plus élevée. Ce choix s'aligne sur les tendances récentes observées dans Apple et Google Research, qui mettent l'accent sur une résolution plus élevée pour une meilleure compréhension visuelle sans augmenter considérablement le nombre de paramètres.
The team also employed innovative tokenization methods to further streamline their models. By improving how sub-image separators are represented during tokenization, the models gained greater stability during training and achieved better quality outputs. For example, multi-token representations of image regions were replaced with single-token equivalents, enhancing both efficiency and accuracy.
L'équipe a également utilisé des méthodes de tokenisation innovantes pour rationaliser davantage leurs modèles. En améliorant la façon dont les séparateurs de sous-image sont représentés pendant la tokenisation, les modèles ont gagné une plus grande stabilité pendant l'entraînement et ont obtenu des résultats de meilleure qualité. Par exemple, les représentations multi-token des régions d'image ont été remplacées par des équivalents mono-token, améliorant à la fois l'efficacité et la précision.
In another advance, the data mixture strategy was fine-tuned to emphasize document understanding and image captioning, while maintaining a balanced focus on essential areas like visual reasoning and chart comprehension. These refinements are reflected in the model’s improved benchmarks which show both the 250M and 500M models outperforming Idefics 80B in nearly every category.
Dans une autre avancée, la stratégie de mélange de données a été affinée pour mettre l'accent sur la compréhension des documents et le sous-titrage de l'image, tout en maintenant un accent équilibré sur les domaines essentiels comme le raisonnement visuel et la compréhension des graphiques. Ces raffinements se reflètent dans les références améliorées du modèle qui montrent que les modèles 250m et 500m surpassent les IDEFics 80b dans presque toutes les catégories.
By demonstrating that small can indeed be mighty, these models pave the way for a future where advanced machine learning capabilities are both accessible and sustainable. If you want to help bring that future into being, go grab these models now. Hugging Face has open-sourced them, and with only modest hardware requirements, just about anyone can get in on the action.
En démontrant que Small peut en effet être puissant, ces modèles ouvrent la voie à un avenir où les capacités avancées d'apprentissage automatique sont à la fois accessibles et durables. Si vous voulez aider à mettre cet avenir dans le fait, allez saisir ces modèles maintenant. Le visage étreint les a open source, et avec seulement des exigences matérielles modestes, à peu près n'importe qui peut se lancer dans l'action.
Clause de non-responsabilité:info@kdj.com
The information provided is not trading advice. kdj.com does not assume any responsibility for any investments made based on the information provided in this article. Cryptocurrencies are highly volatile and it is highly recommended that you invest with caution after thorough research!
If you believe that the content used on this website infringes your copyright, please contact us immediately (info@kdj.com) and we will delete it promptly.
-
- Sushi Labs acquiert un logiciel de chantier naval pour regagner le terrain perdu après le déclin TVL prolongé
- Jan 29, 2025 at 11:00 am
- L'acquisition vise à relever plusieurs défis communs auxquels sont confrontés les DEX, comme Sushiswap. Ils comprennent «l'atténuation des pertes impermanentes, l'optimisation de l'approvisionnement en liquidité
-
- XYZVerse (XYZ) - Une perspective passionnante est prête à secouer la trajectoire de Polygon dans l'arène de la monnaie numérique.
- Jan 29, 2025 at 11:00 am
- Xyzverse, une nouvelle initiative, prend de l'ampleur et pourrait être la clé pour amplifier l'influence du polygone. Ce scénario fait écho à un moment précédent où un facteur inattendu a propulsé Solana sous les projecteurs. Le polygone est-il sur le point d'une surtension similaire? Les développements à venir garantissent l'attention.
-
- Rexas Finance (RXS): Le jeton capturant l'attention des millionnaires Ripple avant le Bull Run 2025
- Jan 29, 2025 at 11:00 am
- Rexas Finance se distingue par sa grande valeur pratique, qui relie les technologies de blockchain avec les secteurs conventionnels. En se concentrant sur la tokenisation des actifs immobiliers, le jeton fournit une plate-forme où les investisseurs
-
- LightChain Ai Prévente: La plate-forme de blockchain AI-First amorcé pour dépasser Stellar (XLM)
- Jan 29, 2025 at 11:00 am
- Lightchain AI, un concurrent en hausse de XRP, a déjà levé 13,2 millions de dollars à un prix de prévente de 0,00525 $ par jeton, les analystes prédisant qu'il pourrait monter à 5 $ avant que Stellar (XLM) ne voit des gains similaires.
-
- Hedera Hashgraph (HBAR) et Plutochain ($ Pluto) prêt pour une croissance significative en 2025
- Jan 29, 2025 at 10:50 am
- Hedera Hashgraph (HBAR), connu pour sa technologie de registre distribué de qualité d'entreprise, est prêt pour une croissance significative, les analystes projetant un prix potentiel de 10 $ en 2025.
-
- Les 4 meilleures préventes cryptographiques de 2025: Entrez tôt et montez sur la vague vers les richesses cryptographiques
- Jan 29, 2025 at 10:50 am
- Le monde de la cryptographie est une jungle, mais caché parmi les vignes et les sous-bois sont des opportunités très juteuses. Nous parlons de ces projets à un stade précoce
-
- Modèle baissier litecoin: déclin à venir? Bitcoin Cash (BCH) Potentiel, Blockdag (BDAG) X1 App dépasse 500k utilisateurs!
- Jan 29, 2025 at 10:50 am
- L'environnement de crypto-monnaie est actuellement varié, certaines pièces rencontrant des difficultés tandis que d'autres atteignent des jalons importants. Litecoin est actuellement sous une influence baissière, présentée par un triangle descendant qui suggère une baisse potentielle. À l'inverse, Bitcoin Cash (BCH) a connu une baisse de 13,53% par rapport à la semaine dernière, mais elle est toujours prometteuse de croissance future selon les experts.