|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
アリババの AI 研究所は、小説約 10 冊に相当する最大 100 万トークンのテキストを処理できる Qwen 言語モデルの新バージョンを導入しました。
Alibaba's AI lab has unveiled a new iteration of its Qwen language model, capable of processing an astonishing one million tokens of text—roughly ten novels' worth. Moreover, the team managed to quadruple the processing speed.
アリババの AI ラボは、小説約 10 冊分に相当する、驚異的な 100 万トークンのテキストを処理できる Qwen 言語モデルの新しいバージョンを発表しました。さらに、チームは処理速度を 4 倍にすることに成功しました。
Qwen has now expanded the context length of its Qwen2.5 language model, introduced in September, from 128,000 to 1 million tokens. This enables Qwen2.5-Turbo to handle ten complete novels, 150 hours of transcripts, or 30,000 lines of code.
Qwen は、9 月に導入された Qwen2.5 言語モデルのコンテキスト長を 128,000 トークンから 100 万トークンに拡張しました。これにより、Qwen2.5-Turbo は、10 冊の完全な小説、150 時間のトランスクリプト、または 30,000 行のコードを処理できるようになります。
Perfect accuracy in retrieving numbers
数字を取得する際の完璧な精度
The model erzielt 100 percent accuracy in the passkey retrieval task, which involves finding hidden numbers within 1 million tokens of irrelevant text, irrespective of the information's position in the document. This seems to partially overcome the "lost in the middle" phenomenon, where language models mainly focus on the beginning and end of a prompt.
モデル erzielt は、文書内の情報の位置に関係なく、無関係なテキストの 100 万トークン内の隠された数字を見つけることを含むパスキー取得タスクで 100% の精度を達成しました。これは、言語モデルが主にプロンプトの始まりと終わりに焦点を当てる「途中で失われた」現象を部分的に克服しているようです。
In several benchmarks for long text comprehension, Qwen2.5-Turbo outperforms competing models like GPT-4 and GLM4-9B-1M, while maintaining performance comparable to GPT-4o-mini with short sequences.
長いテキスト理解に関するいくつかのベンチマークでは、Qwen2.5-Turbo は GPT-4 や GLM4-9B-1M などの競合モデルを上回っており、短いシーケンスでは GPT-4o-mini に匹敵するパフォーマンスを維持しています。
A screen recording from Qwen demonstrates the new language model's ability to quickly summarize Cixin Liu's complete "Trisolaris" trilogy, which spans a total of 690,000 tokens. | Video: Qwen
Qwen の画面録画は、合計 690,000 トークンに及ぶ Cixin Liu の完全な「Trisolaris」三部作を迅速に要約する新しい言語モデルの能力を示しています。 |ビデオ: クウェン
Sparse attention speeds up inference by 4.3x
注意力がまばらなため、推論が 4.3 倍高速化されます
By employing sparse attention mechanisms, Qwen reduced the time to first token when processing 1 million tokens from 4.9 minutes to 68 seconds, marking a 4.3x speed increase.
スパース アテンション メカニズムを採用することで、Qwen は 100 万個のトークンを処理する際の最初のトークンまでの時間を 4.9 分から 68 秒に短縮し、4.3 倍の速度向上を達成しました。
The cost remains at 0.3 yuan (4 cents) per 1 million tokens. At the same price point, Qwen2.5-Turbo can now process 3.6x as many tokens as GPT-4o-mini.
コストは 100 万トークンあたり 0.3 元 (4 セント) のままです。同じ価格帯で、Qwen2.5-Turbo は GPT-4o-mini の 3.6 倍のトークンを処理できるようになりました。
Qwen2.5-Turbo is now accessible via Alibaba Cloud Model Studio's API, as well as through demos on HuggingFace and ModelScope.
Qwen2.5-Turbo は、Alibaba Cloud Model Studio の API 経由のほか、HuggingFace および ModelScope のデモを通じてアクセスできるようになりました。
How DeepMind's Genie AI could reshape robotics by generating interactive worlds from images
DeepMind の Genie AI が画像からインタラクティブな世界を生成することでロボット工学をどのように再構築できるか
Qwen notes that the current model may not always perform optimally on tasks involving long sequences in real-world applications.
Qwen 氏は、現実世界のアプリケーションでは、現在のモデルが長いシーケンスを伴うタスクで常に最適に実行されるわけではない可能性があると指摘しています。
There are still many unsolved challenges, including the model's weaker performance with long sequences and the high inference costs that hinder the deployment of larger models.
長いシーケンスによるモデルのパフォーマンスの低下や、大規模なモデルの展開を妨げる高い推論コストなど、未解決の課題がまだ多くあります。
In the future, Qwen aims to further explore human preference alignment for long sequences, optimize inference efficiency to reduce computation time, and bring larger, more capable models with long context to market.
将来的には、Qwen は、長いシーケンスに対する人間の好みの調整をさらに調査し、推論効率を最適化して計算時間を短縮し、長いコンテキストを備えたより大規模でより高性能なモデルを市場に投入することを目指しています。
Why bother with large context windows?
なぜ大きなコンテキスト ウィンドウをわざわざ使うのでしょうか?
The context windows of large language models have been steadily increasing in recent months. A practical standard has now settled between 128,000 (GPT-4o) and 200,000 (Claude 3.5 Sonnet) tokens, although there are outliers like Gemini 1.5 Pro with up to 10 million or Magic AI's LTM-2-mini with 100 million tokens.
大規模な言語モデルのコンテキスト ウィンドウは、ここ数カ月で着実に増加しています。現在、実用的な標準は 128,000 (GPT-4o) から 200,000 (Claude 3.5 Sonnet) トークンの間に落ち着いていますが、最大 1,000 万トークンの Gemini 1.5 Pro や 1 億トークンの Magic AI の LTM-2-mini などの外れ値もあります。
While these advancements generally contribute to the usefulness of large language models, studies have consistently questioned the benefit of large context windows in comparison to RAG systems, where additional information is retrieved dynamically from vector databases.
これらの進歩は一般に、大規模な言語モデルの有用性に貢献しますが、研究では、追加情報がベクトル データベースから動的に取得される RAG システムと比較して、大きなコンテキスト ウィンドウの利点に一貫して疑問を呈しています。
免責事項:info@kdj.com
提供される情報は取引に関するアドバイスではありません。 kdj.com は、この記事で提供される情報に基づいて行われた投資に対して一切の責任を負いません。暗号通貨は変動性が高いため、十分な調査を行った上で慎重に投資することを強くお勧めします。
このウェブサイトで使用されているコンテンツが著作権を侵害していると思われる場合は、直ちに当社 (info@kdj.com) までご連絡ください。速やかに削除させていただきます。