|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
過去数年間に登場した画期的な人工知能 (AI) アプリケーションの多くは、シーケンス モデルと呼ばれる広範なカテゴリのアルゴリズムの成功によるものです。
Sequence models have played a crucial role in the development of several groundbreaking artificial intelligence (AI) applications in recent years. For instance, the algorithms that power popular large language models like Llama, ChatGPT, and Gemini belong to a specific category of sequence models that perform next-token (or word) prediction.
シーケンス モデルは、近年のいくつかの画期的な人工知能 (AI) アプリケーションの開発において重要な役割を果たしています。たとえば、Llama、ChatGPT、Gemini などの一般的な大規模言語モデルを強化するアルゴリズムは、次のトークン (または単語) 予測を実行するシーケンス モデルの特定のカテゴリに属します。
Text-to-video tools, such as Sora, are also based on sequence models, but in these cases the models used can predict the full sequence of a result, not just the next token.
Sora などのテキスト動画変換ツールもシーケンス モデルに基づいていますが、この場合、使用されるモデルは次のトークンだけでなく、結果の完全なシーケンスを予測できます。
Traditionally, sequence models built for next-token prediction can generate sequences of variable lengths but struggle with long-term planning. On the other hand, full-sequence models excel at long-term planning but are limited to fixed-length input and output sequences. This leaves both classes of models with their own set of trade-offs, each leaving something different to be desired.
従来、次のトークンを予測するために構築されたシーケンス モデルは、可変長のシーケンスを生成できますが、長期的な計画が困難でした。一方、フルシーケンス モデルは長期計画に優れていますが、固定長の入力および出力シーケンスに限定されます。これにより、両方のクラスのモデルに独自のトレードオフが残り、それぞれに異なるものが求められます。
Researchers at MIT CSAIL and the Technical University of Munich have proposed a novel approach called Diffusion Forcing to combine the strengths of both next-token and full-sequence models. This technique improves both the quality and adaptability of sequence models.
MIT CSAIL とミュンヘン工科大学の研究者は、ネクスト トークン モデルとフルシーケンス モデルの両方の長所を組み合わせるために、拡散強制と呼ばれる新しいアプローチを提案しました。この手法により、シーケンス モデルの品質と適応性の両方が向上します。
At its core, Diffusion Forcing builds on "Teacher Forcing," which simplifies sequence generation into smaller, manageable steps by predicting one token at a time. Diffusion Forcing introduces the concept of "fractional masking," where noise is added to the data in varying amounts, mimicking the process of partially obscuring or masking tokens. The model is then trained to remove this noise and predict the next few tokens, allowing it to simultaneously handle denoising and future predictions. This method makes the model highly adaptable to tasks involving noisy or incomplete data, enabling it to generate precise, stable outputs.
拡散強制は、その中核として、一度に 1 つのトークンを予測することでシーケンス生成をより小さく管理しやすいステップに簡素化する「教師強制」に基づいて構築されています。拡散強制では、「フラクショナル マスキング」の概念が導入され、さまざまな量でデータにノイズが追加され、トークンを部分的に隠したりマスキングしたりするプロセスが模倣されます。その後、モデルはこのノイズを除去し、次のいくつかのトークンを予測するようにトレーニングされ、ノイズ除去と将来の予測を同時に処理できるようになります。この方法により、モデルはノイズの多いデータや不完全なデータを含むタスクに高度に適応できるようになり、正確で安定した出力を生成できるようになります。
The researchers validated the Diffusion Forcing technique through a series of experiments in robotics and video generation. In one experiment, the team applied the method to a robotic arm tasked with swapping two toy fruits across three circular mats. Despite visual distractions like a shopping bag obstructing its view, the robotic arm successfully completed the task, demonstrating Diffusion Forcing’s ability to filter out noisy data and make reliable decisions.
研究者らは、ロボット工学とビデオ生成における一連の実験を通じて、拡散強制技術を検証しました。ある実験では、チームはこの方法をロボットアームに適用し、2つのおもちゃの果物を3つの円形マットの上で交換するという任務を与えた。視界を遮るショッピングバッグなどの視覚的な邪魔にも関わらず、ロボットアームはタスクを正常に完了し、ノイズの多いデータをフィルタリングして信頼性の高い決定を下す拡散強制の能力を実証しました。
In another set of experiments, Diffusion Forcing was tested in video generation, where it was trained on gameplay footage from Minecraft and simulated environments in Google’s DeepMind Lab. Compared to traditional diffusion models and next-token models, Diffusion Forcing produced higher-resolution and more stable videos from single frames, even outperforming baselines that struggled to maintain coherence beyond 72 frames.
別の一連の実験では、拡散強制はビデオ生成でテストされ、Minecraft のゲームプレイ映像と Google の DeepMind Lab のシミュレート環境でトレーニングされました。従来の拡散モデルやネクスト トークン モデルと比較して、拡散強制は単一フレームから高解像度で安定したビデオを生成し、72 フレームを超えて一貫性を維持するのに苦労したベースラインをも上回るパフォーマンスを発揮しました。
Finally, in a maze-solving task, the method generated faster and more accurate plans than six baseline models, showcasing its potential for long-horizon tasks like motion planning in robotics.
最後に、迷路解決タスクでは、この方法は 6 つのベースライン モデルよりも高速かつ正確な計画を生成し、ロボット工学における動作計画のような長期的なタスクに対する可能性を示しました。
Overall, Diffusion Forcing provides a flexible framework for both long-term planning and variable-length sequence generation, making it valuable in diverse fields such as robotics, video generation, and AI planning. The technique's ability to handle uncertainty and adapt to new inputs could ultimately lead to advancements in how robots learn and perform complex tasks in unpredictable environments.
全体として、Diffusion Forcing は長期計画と可変長シーケンス生成の両方に柔軟なフレームワークを提供し、ロボット工学、ビデオ生成、AI 計画などのさまざまな分野で価値があります。不確実性に対処し、新しい入力に適応するこの技術の能力は、最終的には、ロボットが予測不可能な環境で複雑なタスクを学習して実行する方法の進歩につながる可能性があります。
免責事項:info@kdj.com
提供される情報は取引に関するアドバイスではありません。 kdj.com は、この記事で提供される情報に基づいて行われた投資に対して一切の責任を負いません。暗号通貨は変動性が高いため、十分な調査を行った上で慎重に投資することを強くお勧めします。
このウェブサイトで使用されているコンテンツが著作権を侵害していると思われる場合は、直ちに当社 (info@kdj.com) までご連絡ください。速やかに削除させていただきます。