Qwen
From Wikipedia, the free encyclopedia
モデル
アリババは、2023年4月に通義千問(Tongyi Qianwen)の名称でQwenのベータ版を初めて公開した[2]。2023年9月には、中国政府の承認を得て正式に公開された[3]。2023年12月には、72Bおよび1.8Bのモデルをオープンソースとして公開し、Qwen 7Bは2023年8月にオープンソース化された[4][5] 。
2024年6月、アリババはQwen 2を発表し、2024年9月には一部のモデルをオープンソース化する一方で、最も高度なモデルは非公開とした[6][7]。Qwen 2は、Mixture of Experts(専門家混合型)アーキテクチャを採用している[8]。
2024年11月には、OpenAI o1と同様に推論に特化したモデルQwQ-32B-PreviewをApache License 2.0の下で公開した。ただし、公開されたのはモデルの重みのみであり、データセットや学習手法は非公開である[9][10]。QwQは32,000トークンのコンテキスト長を持ち、一部のベンチマークにおいてOpenAI o1を上回る性能を示している[11]。
Qwen-VLシリーズは、ビジョンTransformerと大規模言語モデルを組み合わせた視覚言語モデルである[12][13]。アリババは、20億パラメータと70億パラメータのバリアントを持つQwen-VL2を公開した[14][15]。2024年時点で、アリババの主力視覚モデルはQwen-VL-Maxであり、アリババ・クラウドを通じて1,000入力トークンあたり0.00041米ドルで提供されている[16]。
アリババは、Qwen-AudioやQwen2-Mathなど、さまざまな種類のモデルも公開している[17]。これまでに合計100以上のモデルをオープンソース化しており、累計ダウンロード数は4,000万回を超える[7][18]。Qwenのファインチューニング版も多く開発されており、その一例として、サンフランシスコのAbacus AIが開発したLiberated Qwenがある。このバージョンは、コンテンツの制限なくあらゆるユーザーのリクエストに応答できるように調整されている[19]。
2025年1月、アリババは最新かつ最も強力なモデルであるQwen 2.5-Maxを発表した[20]。Alibabaのブログ記事によると、Qwen 2.5-Maxは主要なベンチマークにおいて、GPT-4o、DeepSeek-V3、Llama-3.1-405Bといった他の基盤モデルを上回る性能を発揮している[21]。