通义千问正式推出Qwen3系列模型 支持多语言和两种思考模式

来自: 凤凰网 收藏 邀请

凤凰网科技讯(作者/杨睿琪)4月29日,通义千问团队宣布推出Qwen3系列大语言模型,包含多个参数规模的密集模型(Dense)与混合专家模型(MoE),并全面开源。

该系列模型引入“思考模式”与“非思考模式”两种思考模式,前者支持复杂问题分步推理,后者提供快速响应。

在预训练方面,Qwen3的数据集相比Qwen2.5有了显著扩展。Qwen2.5是在18万亿个 token上进行预训练的,而Qwen3使用的数据量几乎是其两倍,达到了约36万亿个 token,涵盖了119种语言和方言。

此外,据官方介绍,通义千问开源了两个MoE模型的权重:Qwen3-235B-A22B,一个拥有2350多亿总参数和220多亿激活参数的大模型,以及Qwen3-30B-A3B,一个拥有约300亿总参数和30亿激活参数的小型MoE模型。

六个Dense模型也已开源,包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B,均在Apache 2.0许可下开源。

据官方表示,旗舰模型Qwen3-235B-A22B在代码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro等顶级模型相比,表现出极具竞争力的结果。此外,小型MoE模型Qwen3-30B-A3B的激活参数数量是QwQ-32B的10%,表现更胜一筹,甚至像Qwen3-4B这样的小模型也能匹敌Qwen2.5-72B-Instruct的性能。

技术细节方面,Qwen3采用四阶段后训练流程,整合强化学习与指令微调,增强模型推理及多任务处理能力。

团队表示,未来计划从多个维度提升模型,包括优化模型架构和训练方法,以实现几个关键目标:扩展数据规模、增加模型大小、延长上下文长度、拓宽模态范围,并利用环境反馈推进强化学习以进行长周期推理。

(责任编辑:贺 )

【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com


鲜花

握手

雷人

路过

鸡蛋
相关推荐
热门排行

在线客服(服务时间 9:00~18:00)

在线QQ客服
公司地址:贵州省贵阳市观山湖区长岭街道长岭路与观山路西北角中天会展城TA-1、TA-2栋(2)16层14号
电子邮箱:599599113@qq.com
客服电话:13765656037

Powered by 贵州阡乐科技有限公司 © 2025 qianlew.com Inc.( 黔ICP备2025043673号-1 )