|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Nachrichtenartikel zu Kryptowährungen
Diffusion Forcing: Next-Token-Vorhersage trifft auf Full-Sequenz-Diffusion
Oct 18, 2024 at 02:59 am
Im aktuellen KI-Zeitgeist erfreuen sich Sequenzmodelle aufgrund ihrer Fähigkeit, Daten zu analysieren und vorherzusagen, was als nächstes zu tun ist, immer größerer Beliebtheit.
Sequence models have become increasingly popular in the AI domain for their ability to analyze data and predict下一步做什么. For instance, you've likely used next-token prediction models like ChatGPT, which anticipate each word (token) in a sequence to form answers to users' queries. There are also full-sequence diffusion models like Sora, which convert words into dazzling, realistic visuals by successively "denoising" an entire video sequence.
Sequenzmodelle erfreuen sich im KI-Bereich aufgrund ihrer Fähigkeit, Daten zu analysieren und Vorhersagen zu treffen, immer größerer Beliebtheit. Beispielsweise haben Sie wahrscheinlich Modelle zur Vorhersage des nächsten Tokens wie ChatGPT verwendet, die jedes Wort (Token) in einer Sequenz antizipieren, um Antworten auf Benutzeranfragen zu bilden. Es gibt auch Vollsequenz-Diffusionsmodelle wie Sora, die Wörter in schillernde, realistische Bilder umwandeln, indem sie eine ganze Videosequenz sukzessive „entrauschen“.
Researchers from MIT's Computer Science and Artificial Intelligence Laboratory (CSAIL) have proposed a simple change to the diffusion training scheme that makes this sequence denoising considerably more flexible.
Forscher des Computer Science and Artificial Intelligence Laboratory (CSAIL) des MIT haben eine einfache Änderung des Diffusionstrainingsschemas vorgeschlagen, die diese Sequenzentrauschung erheblich flexibler macht.
When applied to fields like computer vision and robotics, the next-token and full-sequence diffusion models have capability trade-offs. Next-token models can spit out sequences that vary in length.
Bei der Anwendung auf Bereiche wie Computer Vision und Robotik weisen die Next-Token- und Full-Sequence-Diffusionsmodelle Leistungskompromisse auf. Next-Token-Modelle können Sequenzen unterschiedlicher Länge ausspucken.
However, they make these generations while being unaware of desirable states in the far future—such as steering its sequence generation toward a certain goal 10 tokens away—and thus require additional mechanisms for long-horizon (long-term) planning. Diffusion models can perform such future-conditioned sampling, but lack the ability of next-token models to generate variable-length sequences.
Allerdings erzeugen sie diese Generationen, ohne sich der wünschenswerten Zustände in der fernen Zukunft bewusst zu sein – wie etwa die Steuerung ihrer Sequenzgenerierung auf ein bestimmtes Ziel, das zehn Token entfernt ist – und erfordern daher zusätzliche Mechanismen für eine langfristige (langfristige) Planung. Diffusionsmodelle können solche zukunftsbedingten Stichproben durchführen, ihnen fehlt jedoch die Fähigkeit von Next-Token-Modellen, Sequenzen variabler Länge zu erzeugen.
Researchers from CSAIL want to combine the strengths of both models, so they created a sequence model training technique called "Diffusion Forcing." The name comes from "Teacher Forcing," the conventional training scheme that breaks down full sequence generation into the smaller, easier steps of next-token generation (much like a good teacher simplifying a complex concept).
Forscher von CSAIL möchten die Stärken beider Modelle kombinieren und haben daher eine Sequenzmodell-Trainingstechnik namens „Diffusion Forcing“ entwickelt. Der Name stammt von „Teacher Forcing“, dem herkömmlichen Trainingsschema, das die vollständige Sequenzgenerierung in die kleineren, einfacheren Schritte der nächsten Token-Generierung aufteilt (ähnlich wie ein guter Lehrer ein komplexes Konzept vereinfacht).
Diffusion Forcing found common ground between diffusion models and teacher forcing: They both use training schemes that involve predicting masked (noisy) tokens from unmasked ones. In the case of diffusion models, they gradually add noise to data, which can be viewed as fractional masking.
Diffusion Forcing fand Gemeinsamkeiten zwischen Diffusionsmodellen und Teacher Forcing: Beide verwenden Trainingsschemata, bei denen maskierte (verrauschte) Token aus unmaskierten Token vorhergesagt werden. Im Fall von Diffusionsmodellen fügen sie den Daten nach und nach Rauschen hinzu, was als fraktionierte Maskierung angesehen werden kann.
The MIT researchers' Diffusion Forcing method trains neural networks to cleanse a collection of tokens, removing different amounts of noise within each one while simultaneously predicting the next few tokens. The result: a flexible, reliable sequence model that resulted in higher-quality artificial videos and more precise decision-making for robots and AI agents.
Die Diffusion Forcing-Methode der MIT-Forscher trainiert neuronale Netze, um eine Sammlung von Token zu bereinigen, wobei in jedem einzelne unterschiedliche Mengen an Rauschen entfernt werden, während gleichzeitig die nächsten paar Token vorhergesagt werden. Das Ergebnis: ein flexibles, zuverlässiges Sequenzmodell, das zu qualitativ hochwertigeren künstlichen Videos und einer präziseren Entscheidungsfindung für Roboter und KI-Agenten führte.
By sorting through noisy data and reliably predicting the next steps in a task, Diffusion Forcing can aid a robot in ignoring visual distractions to complete manipulation tasks. It can also generate stable and consistent video sequences and even guide an AI agent through digital mazes.
Durch die Sortierung verrauschter Daten und die zuverlässige Vorhersage der nächsten Schritte einer Aufgabe kann Diffusion Forcing einem Roboter dabei helfen, visuelle Ablenkungen zu ignorieren und Manipulationsaufgaben auszuführen. Es kann außerdem stabile und konsistente Videosequenzen erzeugen und sogar einen KI-Agenten durch digitale Labyrinthe führen.
This method could potentially enable household and factory robots to generalize to new tasks and improve AI-generated entertainment.
Diese Methode könnte es Haushalts- und Fabrikrobotern möglicherweise ermöglichen, neue Aufgaben zu übernehmen und die KI-generierte Unterhaltung zu verbessern.
"Sequence models aim to condition on the known past and predict the unknown future, a type of binary masking. However, masking doesn't need to be binary," says lead author, MIT electrical engineering and computer science (EECS) Ph.D. student, and CSAIL member Boyuan Chen.
„Sequenzmodelle zielen darauf ab, auf der bekannten Vergangenheit zu basieren und die unbekannte Zukunft vorherzusagen, eine Art binäre Maskierung. Allerdings muss die Maskierung nicht unbedingt binär sein“, sagt Hauptautor, MIT-Doktorand für Elektrotechnik und Informatik (EECS). . Student und CSAIL-Mitglied Boyuan Chen.
"With Diffusion Forcing, we add different levels of noise to each token, effectively serving as a type of fractional masking. At test time, our system can 'unmask' a collection of tokens and diffuse a sequence in the near future at a lower noise level. It knows what to trust within its data to overcome out-of-distribution inputs."
„Mit Diffusion Forcing fügen wir jedem Token unterschiedliche Rauschpegel hinzu und dienen so effektiv als eine Art fraktionierte Maskierung. Zur Testzeit kann unser System eine Sammlung von Token „demaskieren“ und in naher Zukunft eine Sequenz mit geringerem Rauschen verbreiten Es weiß, worauf es in seinen Daten vertrauen kann, um Eingaben außerhalb der Verteilung zu überwinden.
In several experiments, Diffusion Forcing thrived at ignoring misleading data to execute tasks while anticipating future actions.
In mehreren Experimenten gelang es Diffusion Forcing, irreführende Daten zu ignorieren, um Aufgaben auszuführen und gleichzeitig zukünftige Aktionen zu antizipieren.
When implemented into a robotic arm, for example, it helped swap two toy fruits across three circular mats, a minimal example of a family of long-horizon tasks that require memories. The researchers trained the robot by controlling it from a distance (or teleoperating it) in virtual reality.
Bei der Implementierung in einen Roboterarm half es beispielsweise dabei, zwei Spielzeugfrüchte auf drei kreisförmigen Matten auszutauschen, ein minimales Beispiel für eine Familie langwieriger Aufgaben, die Erinnerungen erfordern. Die Forscher trainierten den Roboter, indem sie ihn in der virtuellen Realität aus der Ferne steuerten (oder teleoperierten).
The robot is trained to mimic the user's movements from its camera. Despite starting from random positions and seeing distractions like a shopping bag blocking the markers, it placed the objects into its target spots.
Der Roboter ist darauf trainiert, die Bewegungen des Benutzers über seine Kamera nachzuahmen. Obwohl es von zufälligen Positionen aus startete und Ablenkungen wie eine Einkaufstüte sah, die die Markierungen blockierten, platzierte es die Objekte an ihren Zielpunkten.
To generate videos, they trained Diffusion Forcing on "Minecraft" game play and colorful digital environments created within Google's DeepMind Lab Simulator. When given a single frame of footage, the method produced more stable, higher-resolution videos than comparable baselines like a Sora-like full-sequence diffusion model and ChatGPT-like next-token models.
Um Videos zu erstellen, trainierten sie Diffusion Forcing am „Minecraft“-Gameplay und farbenfrohen digitalen Umgebungen, die mit dem DeepMind Lab Simulator von Google erstellt wurden. Bei Verwendung eines einzelnen Filmbilds erzeugte die Methode stabilere Videos mit höherer Auflösung als vergleichbare Basislinien wie ein Sora-ähnliches Vollsequenz-Diffusionsmodell und ChatGPT-ähnliche Next-Token-Modelle.
These approaches created videos that appeared inconsistent, with the latter sometimes failing to generate working video past just 72 frames.
Diese Ansätze erzeugten Videos, die inkonsistent wirkten, wobei letztere manchmal keine funktionierenden Videos über nur 72 Frames hinaus generierten.
Diffusion Forcing not only generates fancy videos, but can also serve as a motion planner that steers toward desired outcomes or rewards. Thanks to its flexibility, Diffusion Forcing can uniquely generate plans with varying horizon, perform tree search, and incorporate the intuition that the distant future is more uncertain than the near future.
Diffusion Forcing generiert nicht nur ausgefallene Videos, sondern kann auch als Bewegungsplaner dienen, der auf gewünschte Ergebnisse oder Belohnungen abzielt. Dank seiner Flexibilität kann Diffusion Forcing auf einzigartige Weise Pläne mit unterschiedlichem Horizont erstellen, eine Baumsuche durchführen und die Intuition berücksichtigen, dass die ferne Zukunft unsicherer ist als die nahe Zukunft.
In the task of solving a 2D maze, Diffusion Forcing outperformed six baselines by generating faster plans leading to the goal location, indicating that it could be an effective planner for robots in the future.
Bei der Lösung eines 2D-Labyrinths übertraf Diffusion Forcing sechs Basislinien, indem es schnellere Pläne generierte, die zum Zielort führten, was darauf hindeutet, dass es in Zukunft ein effektiver Planer für Roboter sein könnte.
Across each demo, Diffusion Forcing acted as a full sequence model, a next-token prediction model, or both. According to Chen, this versatile approach could potentially serve as a powerful backbone for a "world model," an AI system that can simulate the dynamics of the world by training on billions of internet videos.
In jeder Demo fungierte Diffusion Forcing als vollständiges Sequenzmodell, als Next-Token-Vorhersagemodell oder als beides. Laut Chen könnte dieser vielseitige Ansatz möglicherweise als leistungsstarkes Rückgrat für ein „Weltmodell“ dienen, ein KI-System, das die Dynamik der Welt durch Training auf Milliarden von Internetvideos simulieren kann.
This would allow robots
Dies würde Roboter ermöglichen
Haftungsausschluss:info@kdj.com
Die bereitgestellten Informationen stellen keine Handelsberatung dar. kdj.com übernimmt keine Verantwortung für Investitionen, die auf der Grundlage der in diesem Artikel bereitgestellten Informationen getätigt werden. Kryptowährungen sind sehr volatil und es wird dringend empfohlen, nach gründlicher Recherche mit Vorsicht zu investieren!
Wenn Sie glauben, dass der auf dieser Website verwendete Inhalt Ihr Urheberrecht verletzt, kontaktieren Sie uns bitte umgehend (info@kdj.com) und wir werden ihn umgehend löschen.
-
- Mark Uyeda erläutert seine kryptofreundlichen Bestrebungen und Ziele als potenzieller SEC-Vorsitzender unter dem gewählten Präsidenten Donald Trump
- Nov 23, 2024 at 07:30 pm
- Mark Uyeda, SEC-Kommissar und potenzieller Kandidat für das Amt des SEC-Vorsitzenden unter dem gewählten Präsidenten Donald Trump, hat seine Bestrebungen und Ziele für die Kryptoindustrie detailliert dargelegt. Da Donald Trump sich noch nicht für die Position entschieden hat, skizzierte Uyeda den wahrscheinlichen Ansatz der Agentur unter ihm im Jahr 2025.
-
- Neue Vorschriften könnten den bürokratischen Aufwand abbauen und den Gaming-Token-Sektor entfesseln
- Nov 23, 2024 at 07:30 pm
- Laut Zirlin könnte die erwartete kryptofreundliche Trump-Regierung erhebliche regulatorische Hindernisse rund um das „Token-Design“ beseitigen und neue Möglichkeiten für Gaming-Projekte eröffnen.
-
- Studenten der National Honor Society der STEM Charter Academy in North Idaho brechen Rekord mit Coin Drive
- Nov 23, 2024 at 06:25 pm
- RATHDRUM – Studenten der National Honor Society der STEM Charter Academy in North Idaho brachen mit der diesjährigen Münzaktion ihren eigenen Rekord und sammelten in einer Woche 6.830,78 US-Dollar für die gemeinnützige Safe Passage.
-
- Welche alten Pfennige sind ein Vermögen wert? TikTok-Nutzer enthüllt 11 seltene Münzen, die Sie reich machen könnten
- Nov 23, 2024 at 06:25 pm
- Bestimmte seltene Münzen können viel Geld wert sein und in manchen Fällen für Tausende verkauft werden. Seit einigen Monaten sind seltene Münzen ein heißes Thema und es ist nicht schwer zu verstehen, warum.
-
- Starten Sie Ihr Krypto-Portfolio mit XYZ: The All-Sports Meme Token
- Nov 23, 2024 at 06:25 pm
- Wenn Sie Krypto-Neuling sind und nach einer Investition mit hohem Potenzial suchen, ist XYZ der ultimative Spielmacher. Als erste sportgetriebene Meme-Münze kombiniert XYZ die Energie des Sportfandoms mit dem boomenden Krypto-Vorhersagemarkt.