Capitalisation boursière: $2.6519T 5.030%
Volume(24h): $92.5927B -28.910%
  • Capitalisation boursière: $2.6519T 5.030%
  • Volume(24h): $92.5927B -28.910%
  • Indice de peur et de cupidité:
  • Capitalisation boursière: $2.6519T 5.030%
Cryptos
Les sujets
Cryptospedia
Nouvelles
Cryptosopique
Vidéos
Top nouvelles
Cryptos
Les sujets
Cryptospedia
Nouvelles
Cryptosopique
Vidéos
bitcoin
bitcoin

$80526.588300 USD

-1.29%

ethereum
ethereum

$1540.127221 USD

-4.23%

tether
tether

$0.999410 USD

-0.03%

xrp
xrp

$1.992067 USD

0.59%

bnb
bnb

$578.240064 USD

0.73%

usd-coin
usd-coin

$1.000005 USD

0.01%

solana
solana

$114.989272 USD

-0.41%

dogecoin
dogecoin

$0.156351 USD

1.19%

tron
tron

$0.235315 USD

-1.20%

cardano
cardano

$0.620256 USD

1.42%

unus-sed-leo
unus-sed-leo

$9.411993 USD

0.23%

chainlink
chainlink

$12.296466 USD

0.33%

avalanche
avalanche

$18.470197 USD

2.97%

toncoin
toncoin

$2.925237 USD

-3.48%

hedera
hedera

$0.169941 USD

2.85%

Articles d’actualité sur les crypto-monnaies

VideoLLaMA3 : un cadre centré sur la vision pour les modèles multimodaux avec une tokenisation de vision à toute résolution et un élagage de trame différentiel

Jan 26, 2025 at 02:00 pm

Les progrès en matière d’intelligence multimodale dépendent du traitement et de la compréhension des images et des vidéos. Les images peuvent révéler des scènes statiques en fournissant des informations sur des détails tels que les objets, le texte et les relations spatiales. Cependant, cela a le prix d’être extrêmement difficile. La compréhension vidéo implique, entre autres opérations, le suivi des changements au fil du temps, tout en garantissant la cohérence entre les images, ce qui nécessite une gestion dynamique du contenu et des relations temporelles. Ces tâches deviennent plus difficiles car la collecte et l'annotation d'ensembles de données vidéo-texte sont relativement difficiles par rapport à l'ensemble de données image-texte.

VideoLLaMA3 : un cadre centré sur la vision pour les modèles multimodaux avec une tokenisation de vision à toute résolution et un élagage de trame différentiel

Advancements in multimodal intelligence hinge on the ability to process and understand images and videos. While images provide a snapshot of a static scene, offering details on objects, text, and spatial relationships, videos introduce an additional layer of complexity. Video comprehension entails tracking changes over time and ensuring consistency across frames, demanding dynamic content management and an understanding of temporal relationships. However, the collection and annotation of video-text datasets pale in comparison to the abundance of image-text datasets.

Les progrès en matière d’intelligence multimodale reposent sur la capacité à traiter et à comprendre des images et des vidéos. Alors que les images fournissent un instantané d’une scène statique, offrant des détails sur les objets, le texte et les relations spatiales, les vidéos introduisent une couche supplémentaire de complexité. La compréhension vidéo implique de suivre les changements au fil du temps et d'assurer la cohérence entre les images, ce qui exige une gestion dynamique du contenu et une compréhension des relations temporelles. Cependant, la collecte et l’annotation d’ensembles de données vidéo-texte ne sont rien en comparaison de l’abondance des ensembles de données image-texte.

Traditional methods for multimodal large language models (MLLMs) encounter challenges in video understanding. Approaches such as sparsely sampled frames, basic connectors, and image-based encoders fail to effectively capture temporal dependencies and dynamic content. Techniques like token compression and extended context windows struggle with long-form video complexity, while integrating audio and visual inputs often lacks seamless interaction. Efforts in real-time processing and scaling model sizes remain inefficient, and existing architectures are not optimized for handling long video tasks.

Les méthodes traditionnelles de modèles multimodaux de langage étendu (MLLM) rencontrent des défis en matière de compréhension vidéo. Les approches telles que les images peu échantillonnées, les connecteurs de base et les encodeurs basés sur des images ne parviennent pas à capturer efficacement les dépendances temporelles et le contenu dynamique. Les techniques telles que la compression de jetons et les fenêtres contextuelles étendues ont du mal à gérer la complexité des vidéos longues, tandis que l'intégration des entrées audio et visuelles manque souvent d'interaction transparente. Les efforts de traitement en temps réel et de mise à l'échelle de la taille des modèles restent inefficaces et les architectures existantes ne sont pas optimisées pour gérer de longues tâches vidéo.

To address these challenges in video understanding, researchers from Alibaba Group proposed the VideoLLaMA3 framework, which incorporates Any-resolution Vision Tokenization (AVT) and Differential Frame Pruner (DiffFP). AVT improves upon traditional fixed-resolution tokenization by enabling vision encoders to process variable resolutions dynamically, reducing information loss. This is achieved by adapting ViT-based encoders with 2D-RoPE for flexible position embedding.

Pour relever ces défis en matière de compréhension vidéo, des chercheurs du groupe Alibaba ont proposé le cadre VideoLLaMA3, qui intègre la tokenisation de vision à toute résolution (AVT) et l'élagage de trame différentiel (DiffFP). AVT améliore la tokenisation traditionnelle à résolution fixe en permettant aux encodeurs de vision de traiter dynamiquement les résolutions variables, réduisant ainsi la perte d'informations. Ceci est réalisé en adaptant les codeurs basés sur ViT avec 2D-RoPE pour une intégration flexible de la position.

To preserve vital information, DiffFP deals with redundant and long video tokens by pruning frames with minimal differences as taken through a 1-norm distance between the patches. Dynamic resolution handling, in combination with efficient token reduction, improves the representation while reducing the costs.

Pour préserver les informations vitales, DiffFP traite les jetons vidéo redondants et longs en éliminant les images avec des différences minimes mesurées sur une distance de norme 1 entre les correctifs. La gestion dynamique de la résolution, combinée à une réduction efficace des jetons, améliore la représentation tout en réduisant les coûts.

The model consists of a vision encoder, video compressor, projector, and large language model (LLM), initializing the vision encoder using a pre-trained SigLIP model. It extracts visual tokens, while the video compressor reduces video token representation. The projector connects the vision encoder to the LLM, and Qwen2.5 models are used for the LLM.

Le modèle se compose d'un encodeur de vision, d'un compresseur vidéo, d'un projecteur et d'un modèle de langage étendu (LLM), initialisant l'encodeur de vision à l'aide d'un modèle SigLIP pré-entraîné. Il extrait les jetons visuels, tandis que le compresseur vidéo réduit la représentation des jetons vidéo. Le projecteur connecte l'encodeur de vision au LLM, et les modèles Qwen2.5 sont utilisés pour le LLM.

Training occurs in four stages: Vision Encoder Adaptation, Vision-Language Alignment, Multi-task Fine-tuning, and Video-centric Fine-tuning. The first three stages focus on image understanding, and the final stage enhances video understanding by incorporating temporal information.

La formation se déroule en quatre étapes : adaptation de l'encodeur de vision, alignement vision-langage, réglage fin multitâche et réglage fin centré sur la vidéo. Les trois premières étapes se concentrent sur la compréhension de l'image et la dernière étape améliore la compréhension de la vidéo en incorporant des informations temporelles.

The Vision Encoder Adaptation Stage focuses on fine-tuning the vision encoder, initialized with SigLIP, on a large-scale image dataset, allowing it to process images at varying resolutions. The Vision-Language Alignment Stage introduces multimodal knowledge, making the LLM and the vision encoder trainable to integrate vision and language understanding.

L'étape d'adaptation de l'encodeur de vision se concentre sur le réglage fin de l'encodeur de vision, initialisé avec SigLIP, sur un ensemble de données d'image à grande échelle, lui permettant de traiter des images à différentes résolutions. L'étape d'alignement vision-langage introduit des connaissances multimodales, permettant au LLM et à l'encodeur de vision d'être entraînés pour intégrer la compréhension de la vision et du langage.

In the Multi-task Fine-tuning Stage, instruction fine-tuning is performed using multimodal question-answering data, including image and video questions, improving the model’s ability to follow natural language instructions and process temporal information. The Video-centric Fine-tuning Stage unfreezes all parameters to enhance the model’s video understanding capabilities.

Au cours de l'étape de réglage fin multitâche, le réglage fin des instructions est effectué à l'aide de données de réponse multimodales, notamment des questions d'image et de vidéo, améliorant ainsi la capacité du modèle à suivre des instructions en langage naturel et à traiter des informations temporelles. L'étape de réglage fin centrée sur la vidéo débloque tous les paramètres pour améliorer les capacités de compréhension vidéo du modèle.

The training data comes from diverse sources like scene images, documents, charts, fine-grained images, and video data, ensuring comprehensive multimodal understanding.

Les données de formation proviennent de diverses sources telles que des images de scènes, des documents, des graphiques, des images à granularité fine et des données vidéo, garantissant une compréhension multimodale complète.

Experiments were conducted to evaluate the performance of VideoLLaMA3 across image and video tasks. For image-based tasks, the model was tested on document understanding, mathematical reasoning, and multi-image understanding, where it outperformed previous models, showing improvements in chart understanding and real-world knowledge question answering (QA).

Des expériences ont été menées pour évaluer les performances de VideoLLaMA3 dans les tâches d'image et de vidéo. Pour les tâches basées sur des images, le modèle a été testé sur la compréhension de documents, le raisonnement mathématique et la compréhension multi-images, où il a surpassé les modèles précédents, montrant des améliorations dans la compréhension des graphiques et la réponse aux questions (AQ) de connaissances du monde réel.

In video-based tasks, VideoLLaMA3 performed strongly in benchmarks like VideoMME and MVBench, proving proficient in general video understanding, long-form video comprehension, and temporal reasoning. The 2B and 7B models performed very competitively, with the 7B model leading in most video tasks, which underlines the model’s effectiveness in multimodal tasks.

Dans les tâches basées sur la vidéo, VideoLLaMA3 a obtenu de bons résultats dans des tests tels que VideoMME et MVBench, se montrant compétent en compréhension générale de la vidéo, en compréhension vidéo longue durée et en raisonnement temporel. Les modèles 2B et 7B ont été très compétitifs, le modèle 7B étant en tête dans la plupart des tâches vidéo, ce qui souligne l'efficacité du modèle dans les tâches multimodales.

Other areas where important improvements were reported were OCR, mathematical reasoning, multi-image understanding, and long-term video comprehension.

D'autres domaines dans lesquels des améliorations importantes ont été signalées sont l'OCR, le raisonnement mathématique, la compréhension multi-images et la compréhension vidéo à long terme.

At last, the proposed framework advances vision-centric multimodal models, offering a strong framework for understanding images and videos. By utilizing high-quality image-text datasets it addresses video comprehension challenges and temporal dynamics, achieving strong results across benchmarks. However, challenges like video-text dataset quality and real-time processing remain.

Enfin, le cadre proposé fait progresser les modèles multimodaux centrés sur la vision, offrant un cadre solide pour comprendre les images et les vidéos. En utilisant des ensembles de données image-texte de haute qualité, il répond aux défis de compréhension vidéo et à la dynamique temporelle, obtenant ainsi de solides résultats dans tous les tests de référence. Cependant, des défis subsistent tels que la qualité des ensembles de données vidéotexte et le traitement en temps réel.

Future research can enhance video-text datasets, optimize for real-time performance, and integrate additional modalities like audio and speech. This work can serve as a baseline for future advancements in multimodal understanding, improving efficiency, generalization, and integration.

Les recherches futures pourront améliorer les ensembles de données vidéo-texte, optimiser les performances en temps réel et intégrer des modalités supplémentaires telles que l'audio et la parole. Ce travail peut servir de base aux progrès futurs dans la compréhension multimodale, en améliorant l’efficacité, la généralisation et l’intégration.

Check out the Paper and GitHub Page.

Consultez la page Paper et GitHub.

All credit for this research goes to the researchers of this project. Also, don’t forget to follow us on Twitter and join our Telegram Channel and LinkedIn Group. Don’t Forget to join our 70k+ ML SubReddit.

Tout le mérite de cette recherche revient aux chercheurs de ce projet. N'oubliez pas non plus de nous suivre sur Twitter et de rejoindre notre chaîne Telegram et notre groupe LinkedIn. N'oubliez pas de rejoindre notre SubReddit de plus de 70 000 ML.

🚨 [Recommended Read] Nebius AI Studio expands with vision models, new language models, embeddings and LoRA (Promoted)

🚨 [Lecture recommandée] Nebius AI Studio s'étend avec des modèles de vision, de nouveaux modèles de langage, des intégrations et LoRA (promu)

Clause de non-responsabilité:info@kdj.com

Les informations fournies ne constituent pas des conseils commerciaux. kdj.com n’assume aucune responsabilité pour les investissements effectués sur la base des informations fournies dans cet article. Les crypto-monnaies sont très volatiles et il est fortement recommandé d’investir avec prudence après une recherche approfondie!

Si vous pensez que le contenu utilisé sur ce site Web porte atteinte à vos droits d’auteur, veuillez nous contacter immédiatement (info@kdj.com) et nous le supprimerons dans les plus brefs délais.

Autres articles publiés sur Apr 12, 2025