小米MiMo-7B:增强语言模型推理能力
小米MiMo-7B系列模型通过优化预训练数据和强化学习后训练,显著提升了语言模型的推理能力,并在数学和代码基准测试中表现出色,性能媲美OpenAI o1-mini。
小米MiMo:释放语言模型的推理潜力
核心观点: 小米发布了MiMo-7B系列模型,专注于提升语言模型的推理能力,强调预训练和后训练策略的重要性。
亮点:
- 预训练: MiMo-7B-Base模型通过优化数据预处理流程、增强文本提取工具和应用多维数据过滤来提高预训练数据中推理模式的密度。同时,采用多种策略生成大规模多样化的合成推理数据。预训练数据量约为25万亿tokens。
- 后训练: 针对数学和代码问题,构建了13万高质量的强化学习训练数据,并通过规则验证器进行验证。引入测试难度驱动的代码奖励机制,为不同难度的测试用例分配细粒度的分数,从而更有效地优化策略。
- 强化学习基础设施: 开发了无缝Rollout引擎,加速强化学习训练和验证,训练速度提高2.29倍,验证速度提高1.96倍。
模型:
- MiMo-7B-Base: 具备卓越推理潜力的基础模型。
- MiMo-7B-RL-Zero: 从基础模型训练的强化学习模型。
- MiMo-7B-SFT: 从基础模型训练的SFT模型。
- MiMo-7B-RL: 从SFT模型训练的强化学习模型,性能优越,与OpenAI o1-mini相媲美。
性能表现:
MiMo-7B-RL 在多个数学和代码基准测试中表现出色,甚至在 MATH-500 测试中超越了其他大型模型。
部署:
- 推荐使用小米定制的vLLM版本进行推理,该版本支持MiMo-MTP。
- 也支持HuggingFace 推理。
总结:
MiMo-7B系列模型通过创新的预训练和后训练策略,以及高效的强化学习基础设施,在推理能力方面取得了显著的成果,为开发更强大的推理LLM提供了有价值的参考