![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
![]() |
|
Nachrichtenartikel zu Kryptowährungen
VideoLLaMA3: Ein visionszentriertes Framework für multimodale Modelle mit Vision-Tokenisierung mit beliebiger Auflösung und Differential Frame Pruner
Jan 26, 2025 at 02:00 pm
Fortschritte in der multimodalen Intelligenz hängen von der Verarbeitung und dem Verständnis von Bildern und Videos ab. Bilder können statische Szenen offenbaren, indem sie Informationen zu Details wie Objekten, Text und räumlichen Beziehungen bereitstellen. Dies geht allerdings mit einer extremen Herausforderung einher. Beim Videoverstehen geht es neben anderen Vorgängen darum, Änderungen im Zeitverlauf zu verfolgen und gleichzeitig die Konsistenz über Frames hinweg sicherzustellen, was ein dynamisches Content-Management und zeitliche Beziehungen erfordert. Diese Aufgaben werden schwieriger, da die Erfassung und Kommentierung von Videotext-Datensätzen im Vergleich zu Bildtext-Datensätzen relativ schwierig ist.
Advancements in multimodal intelligence hinge on the ability to process and understand images and videos. While images provide a snapshot of a static scene, offering details on objects, text, and spatial relationships, videos introduce an additional layer of complexity. Video comprehension entails tracking changes over time and ensuring consistency across frames, demanding dynamic content management and an understanding of temporal relationships. However, the collection and annotation of video-text datasets pale in comparison to the abundance of image-text datasets.
Fortschritte in der multimodalen Intelligenz hängen von der Fähigkeit ab, Bilder und Videos zu verarbeiten und zu verstehen. Während Bilder eine Momentaufnahme einer statischen Szene liefern und Details zu Objekten, Texten und räumlichen Beziehungen bieten, bringen Videos eine zusätzliche Komplexitätsebene mit sich. Beim Verstehen von Videos geht es darum, Veränderungen im Laufe der Zeit zu verfolgen und die Konsistenz über mehrere Frames hinweg sicherzustellen. Dafür sind ein dynamisches Content-Management und ein Verständnis zeitlicher Zusammenhänge erforderlich. Allerdings verblassen die Sammlung und Annotation von Videotext-Datensätzen im Vergleich zur Fülle von Bildtext-Datensätzen.
Traditional methods for multimodal large language models (MLLMs) encounter challenges in video understanding. Approaches such as sparsely sampled frames, basic connectors, and image-based encoders fail to effectively capture temporal dependencies and dynamic content. Techniques like token compression and extended context windows struggle with long-form video complexity, while integrating audio and visual inputs often lacks seamless interaction. Efforts in real-time processing and scaling model sizes remain inefficient, and existing architectures are not optimized for handling long video tasks.
Herkömmliche Methoden für multimodale große Sprachmodelle (MLLMs) stoßen beim Videoverständnis auf Herausforderungen. Ansätze wie spärlich abgetastete Frames, einfache Konnektoren und bildbasierte Encoder können zeitliche Abhängigkeiten und dynamische Inhalte nicht effektiv erfassen. Techniken wie Token-Komprimierung und erweiterte Kontextfenster haben Probleme mit der Komplexität von Langformatvideos, während es bei der Integration von Audio- und visuellen Eingaben häufig an einer nahtlosen Interaktion mangelt. Bemühungen zur Echtzeitverarbeitung und Skalierung der Modellgrößen bleiben ineffizient und bestehende Architekturen sind nicht für die Bewältigung langer Videoaufgaben optimiert.
To address these challenges in video understanding, researchers from Alibaba Group proposed the VideoLLaMA3 framework, which incorporates Any-resolution Vision Tokenization (AVT) and Differential Frame Pruner (DiffFP). AVT improves upon traditional fixed-resolution tokenization by enabling vision encoders to process variable resolutions dynamically, reducing information loss. This is achieved by adapting ViT-based encoders with 2D-RoPE for flexible position embedding.
Um diese Herausforderungen beim Videoverständnis anzugehen, haben Forscher der Alibaba Group das VideoLLaMA3-Framework vorgeschlagen, das Any-resolution Vision Tokenization (AVT) und Differential Frame Pruner (DiffFP) umfasst. AVT verbessert die herkömmliche Tokenisierung mit fester Auflösung, indem es Vision-Encodern ermöglicht, variable Auflösungen dynamisch zu verarbeiten und so den Informationsverlust zu reduzieren. Dies wird durch die Anpassung von ViT-basierten Encodern mit 2D-RoPE zur flexiblen Positionseinbettung erreicht.
To preserve vital information, DiffFP deals with redundant and long video tokens by pruning frames with minimal differences as taken through a 1-norm distance between the patches. Dynamic resolution handling, in combination with efficient token reduction, improves the representation while reducing the costs.
Um wichtige Informationen zu bewahren, verarbeitet DiffFP redundante und lange Video-Tokens, indem es Frames mit minimalen Unterschieden beschneidet, die über einen 1-Norm-Abstand zwischen den Patches ermittelt werden. Die dynamische Auflösungsverarbeitung in Kombination mit einer effizienten Token-Reduzierung verbessert die Darstellung und senkt gleichzeitig die Kosten.
The model consists of a vision encoder, video compressor, projector, and large language model (LLM), initializing the vision encoder using a pre-trained SigLIP model. It extracts visual tokens, while the video compressor reduces video token representation. The projector connects the vision encoder to the LLM, and Qwen2.5 models are used for the LLM.
Das Modell besteht aus einem Vision-Encoder, einem Videokompressor, einem Projektor und einem großen Sprachmodell (LLM), das den Vision-Encoder mithilfe eines vorab trainierten SigLIP-Modells initialisiert. Es extrahiert visuelle Token, während der Videokompressor die Darstellung von Video-Token reduziert. Der Projektor verbindet den Vision-Encoder mit dem LLM und für den LLM werden Qwen2.5-Modelle verwendet.
Training occurs in four stages: Vision Encoder Adaptation, Vision-Language Alignment, Multi-task Fine-tuning, and Video-centric Fine-tuning. The first three stages focus on image understanding, and the final stage enhances video understanding by incorporating temporal information.
Das Training erfolgt in vier Phasen: Vision-Encoder-Anpassung, Vision-Sprach-Ausrichtung, Multitasking-Feinabstimmung und videozentrierte Feinabstimmung. Die ersten drei Phasen konzentrieren sich auf das Bildverständnis, und die letzte Phase verbessert das Videoverständnis durch die Einbeziehung zeitlicher Informationen.
The Vision Encoder Adaptation Stage focuses on fine-tuning the vision encoder, initialized with SigLIP, on a large-scale image dataset, allowing it to process images at varying resolutions. The Vision-Language Alignment Stage introduces multimodal knowledge, making the LLM and the vision encoder trainable to integrate vision and language understanding.
Die Vision-Encoder-Anpassungsphase konzentriert sich auf die Feinabstimmung des mit SigLIP initialisierten Vision-Encoders an einem großen Bilddatensatz, sodass er Bilder mit unterschiedlichen Auflösungen verarbeiten kann. Die Vision-Language-Alignment-Phase führt multimodales Wissen ein und macht das LLM und den Vision-Encoder trainierbar, um Vision und Sprachverständnis zu integrieren.
In the Multi-task Fine-tuning Stage, instruction fine-tuning is performed using multimodal question-answering data, including image and video questions, improving the model’s ability to follow natural language instructions and process temporal information. The Video-centric Fine-tuning Stage unfreezes all parameters to enhance the model’s video understanding capabilities.
In der Multitask-Feinabstimmungsphase wird die Feinabstimmung der Anweisungen mithilfe multimodaler Frage-Antwort-Daten, einschließlich Bild- und Videofragen, durchgeführt, wodurch die Fähigkeit des Modells verbessert wird, Anweisungen in natürlicher Sprache zu befolgen und zeitliche Informationen zu verarbeiten. Die videozentrierte Feinabstimmungsphase gibt alle Parameter frei, um die Videoverständnisfähigkeiten des Modells zu verbessern.
The training data comes from diverse sources like scene images, documents, charts, fine-grained images, and video data, ensuring comprehensive multimodal understanding.
Die Trainingsdaten stammen aus verschiedenen Quellen wie Szenenbildern, Dokumenten, Diagrammen, feinkörnigen Bildern und Videodaten und gewährleisten so ein umfassendes multimodales Verständnis.
Experiments were conducted to evaluate the performance of VideoLLaMA3 across image and video tasks. For image-based tasks, the model was tested on document understanding, mathematical reasoning, and multi-image understanding, where it outperformed previous models, showing improvements in chart understanding and real-world knowledge question answering (QA).
Es wurden Experimente durchgeführt, um die Leistung von VideoLLaMA3 bei Bild- und Videoaufgaben zu bewerten. Für bildbasierte Aufgaben wurde das Modell auf Dokumentverständnis, mathematisches Denken und Mehrbildverständnis getestet. Dabei übertraf es frühere Modelle und zeigte Verbesserungen beim Diagrammverständnis und bei der Beantwortung realer Wissensfragen (QA).
In video-based tasks, VideoLLaMA3 performed strongly in benchmarks like VideoMME and MVBench, proving proficient in general video understanding, long-form video comprehension, and temporal reasoning. The 2B and 7B models performed very competitively, with the 7B model leading in most video tasks, which underlines the model’s effectiveness in multimodal tasks.
Bei videobasierten Aufgaben schnitt VideoLLaMA3 in Benchmarks wie VideoMME und MVBench gut ab und erwies sich als kompetent im allgemeinen Videoverständnis, im Langform-Videoverständnis und im zeitlichen Denken. Die Modelle 2B und 7B zeigten eine sehr konkurrenzfähige Leistung, wobei das 7B-Modell bei den meisten Videoaufgaben führend war, was die Wirksamkeit des Modells bei multimodalen Aufgaben unterstreicht.
Other areas where important improvements were reported were OCR, mathematical reasoning, multi-image understanding, and long-term video comprehension.
Weitere Bereiche, in denen wichtige Verbesserungen gemeldet wurden, waren OCR, mathematisches Denken, Verständnis mehrerer Bilder und langfristiges Videoverständnis.
At last, the proposed framework advances vision-centric multimodal models, offering a strong framework for understanding images and videos. By utilizing high-quality image-text datasets it addresses video comprehension challenges and temporal dynamics, achieving strong results across benchmarks. However, challenges like video-text dataset quality and real-time processing remain.
Schließlich fördert das vorgeschlagene Framework visionszentrierte multimodale Modelle und bietet einen starken Rahmen für das Verständnis von Bildern und Videos. Durch die Verwendung hochwertiger Bild-Text-Datensätze werden Herausforderungen beim Videoverständnis und zeitliche Dynamiken angegangen, wodurch bei allen Benchmarks starke Ergebnisse erzielt werden. Allerdings bleiben Herausforderungen wie die Qualität des Videotext-Datensatzes und die Echtzeitverarbeitung bestehen.
Future research can enhance video-text datasets, optimize for real-time performance, and integrate additional modalities like audio and speech. This work can serve as a baseline for future advancements in multimodal understanding, improving efficiency, generalization, and integration.
Zukünftige Forschungen können Videotext-Datensätze verbessern, die Leistung in Echtzeit optimieren und zusätzliche Modalitäten wie Audio und Sprache integrieren. Diese Arbeit kann als Grundlage für zukünftige Fortschritte im multimodalen Verständnis dienen und die Effizienz, Generalisierung und Integration verbessern.
Check out the Paper and GitHub Page.
Schauen Sie sich die Paper- und GitHub-Seite an.
All credit for this research goes to the researchers of this project. Also, don’t forget to follow us on Twitter and join our Telegram Channel and LinkedIn Group. Don’t Forget to join our 70k+ ML SubReddit.
Alle Anerkennung für diese Forschung gebührt den Forschern dieses Projekts. Vergessen Sie auch nicht, uns auf Twitter zu folgen und unserem Telegram-Kanal und unserer LinkedIn-Gruppe beizutreten. Vergessen Sie nicht, unserem über 70.000 ML-SubReddit beizutreten.
🚨 [Recommended Read] Nebius AI Studio expands with vision models, new language models, embeddings and LoRA (Promoted)
🚨 [Empfohlene Lektüre] Nebius AI Studio wird um Visionsmodelle, neue Sprachmodelle, Einbettungen und LoRA erweitert (gefördert)
Haftungsausschluss:info@kdj.com
Die bereitgestellten Informationen stellen keine Handelsberatung dar. kdj.com übernimmt keine Verantwortung für Investitionen, die auf der Grundlage der in diesem Artikel bereitgestellten Informationen getätigt werden. Kryptowährungen sind sehr volatil und es wird dringend empfohlen, nach gründlicher Recherche mit Vorsicht zu investieren!
Wenn Sie glauben, dass der auf dieser Website verwendete Inhalt Ihr Urheberrecht verletzt, kontaktieren Sie uns bitte umgehend (info@kdj.com) und wir werden ihn umgehend löschen.
-
-
-
- Eine Reihe von Bitcoin -Transfers aus Brieftaschen, die mit der bhutanischen Regierung verbunden sind, hat die Aufmerksamkeit von Kryptowährungsbeobachtern auf sich gezogen.
- Apr 04, 2025 at 11:30 pm
- Eine Reihe von Bitcoin -Transfers aus Brieftaschen, die mit der bhutanischen Regierung verbunden sind, hat die Aufmerksamkeit von Kryptowährungsbeobachtern auf sich gezogen. Laut Blockchain -Daten aus Arkham, die an Druk Holdings gebunden waren, bewegte der kommerzielle Arm von Bhutans Regierung am 2. April 419,5 Bitcoin im Wert von rund 34,51 Millionen US -Dollar an eine nicht identifizierte Adresse.
-
-
-
-
- Haben Sie sich jemals gefragt, ob Sie den letzten großen Krypto -Breakout verpasst haben? Du bist nicht allein.
- Apr 04, 2025 at 11:20 pm
- Nachdem sich das Weltraum wieder erhitzt, machen Projekte wie Cronos und Hedera Wellen in den Schlagzeilen - Cronos mit dem bullischen Rebranding Bounce und Hedera machen Kraftbewegungen in der Enterprise Blockchain -Welt.
-
-
- Der Shiba Inu (Shib) -Preis könnte kurz vor einer bullischen Umkehrung stehen, nachdem Shibarium eine Flut von Updates angekündigt hat
- Apr 04, 2025 at 11:15 pm
- Der Shiba Inu (Shib) -Preis könnte kurz vor einer bullischen Umkehrung stehen, nachdem Shibarium eine Flut von Aktualisierungen angekündigt hatte, die die Netzwerkaktivität stärken und die Schibsbrennrate erhöhen möchten.