
阿里云Qwen3发布:中国首个开源混合推理大模型
阿里云发布中国首个混合推理开源大模型Qwen3,性能优越且成本更低,开源策略推动模型普及与创新,多模态及类人思考是AGI重要途径。
阿里云发布 Qwen3:中国首个混合推理开源大模型
- 重磅发布: 阿里云发布通义千问 Qwen3,并开源 8 个版本。
- 技术突破: Qwen3 是中国首个、全球首个开源的混合推理模型,融合了 “推理” 和 “非推理” 模式,能像人一样根据问题选择 “快、慢思考”。
- 性能提升:
- 旗舰模型 Qwen3-235B-A22B 在多项测评指标上超越 DeepSeek-R1 满血版 (参数更少,效果更好)。
- 更小的 MoE 模型 Qwen3-30B-A3B 使用时的激活参数更少,但效果更优,降低了部署和使用成本。
- 开源策略:
- Qwen 系列大模型已被累计下载 3 亿次,衍生模型数量超 10 万个,全球第一。
- 阿里大模型研发负责人周靖人认为,从技术发展规律看,不开源风险更大。
- 市场影响:
- 苹果据传选择 Qwen 成为中国的大模型合作伙伴。
- 李飞飞团队用 Qwen 训练超低成本推理模型。
- 通用 Agent 产品 Manus 调用 Qwen 做决策规划。
- 阿里云的 AGI 路径:
- 大模型发展和云体系的支撑不可分割。
- 探索让模型更像人那样思考,具备自我反思、自我纠错等能力。
- 多模态是通向 AGI 的重要途径。
- 探索新的学习机制,包括在线学习、持续学习和自学习。
- 混合推理模型的优势: 更好平衡性能和成本,通过推理和非推理的混合训练实现。
- 阿里对大模型的认知变化: 模型是新时代重要的生产元素,开源更利于普及,是重要的创新驱动力。
- 周靖人金句:
- “我们无法预知别人的发布节奏。研发这件事,想临时调节奏也调不过来,不符合研发规律。”
- “从技术发展规律看,不开源反而风险更大,因为开源至少会追上闭源,甚至发展得更好。”
- “其实 o1 谈不上定义了新范式。让模型学会思考,它不是一个范式,而是一种能力。”
- “今天外界听到吴泳铭宣布了什么,感觉阿里好像突然有个大转变,其实不是。从技术发展规律来说,没有前期积累不可能一蹴而就。”
- “某一天的流量其实没那么重要。更前瞻性地思考,更笃定地坚持自己的技术路径和节奏。”
- “科技研发没有捷径。