ListenHub
0
4-30晓曼: 嘿,最近小米搞了个 MiMo-7B 模型,听说是专攻 AI 推理能力的?这名字听着就挺玄乎的,要不你先给我简单说说,这玩意儿到底是干嘛用的?
原野: 哎呦,这 MiMo-7B 简单说,就是小米想让 AI 更“聪明”点儿,特别是那种得动脑筋的活儿,像解数学题、写代码啥的,专门搞的。
晓曼: 哟,“更聪明”? 那之前的模型是笨蛋吗?只会死记硬背?
原野: 可以这么理解!以前的大语言模型就像给你本教科书,照着抄就完了。MiMo-7B 不光给你书,还给你配套练习册,让你先把各种题型都刷一遍,再去考试。它主要分俩阶段,一个是预训练,一个是后训练。
晓曼: 这预训练听着有点儿虚,能给咱来个更接地气的例子吗?
原野: 成啊!就当是练长跑,预训练阶段就是先跑个一万公里马拉松!小米用了 25 万亿 tokens 的数据,还挑那种跟推理关系大的“高密度”材料,就跟专门在各种坡度、路况下练跑步一样,练腿部肌肉和心肺!
晓曼: 嚯,25 万亿!这得看多少本科生的毕业论文啊?我的天!
原野: 哈哈哈,差不多吧。他们还自己出了好多花式推理题,像逻辑推断、数学计算、代码题,打包成一个巨大无比的训练集。
晓曼: 哎,那后训练又是啥?
原野: 后训练就更讲究了,专门挑了 13 万道高质量的数学和编程题,用强化学习“精雕细琢”模型。还整了个规则验证器,就像有个严厉的教练在旁边盯着,稍微姿势不对就给你指出来,还给不同难度的题打分,难题分儿高,策略优化就更精准。
晓曼: 听着有点像游戏打怪升级,打 Boss 多给点经验!
原野: 没错!他们还自己搞了个“Rollout 引擎”,训练和测试速度比原来快了一倍多,就跟跑步机升级成高性能跑道,效率蹭蹭往上涨。
晓曼: 那整这么一套下来,MiMo-7B 有几个版本啊? 是全家桶还就一个?
原野: 四个版本呢,可以叫他们四兄弟:Base 版,基础款,推理潜力足;RL-Zero 版,在 Base 上搞强化学习;SFT 版,在 Base 上用监督微调;RL 版,在 SFT 的基础上再来一遍强化学习,性能最猛,能跟 OpenAI 的 o1-mini 硬碰硬。
晓曼: 听起来层层递进,都能用啊。 性能咋样?真能打吗?
原野: 在那些常用的数学和代码测试里,MiMo-7B-RL 表现相当亮眼!尤其是在 MATH-500 测试里,直接把好几家大模型甩在后头,就像小米这支“战队”里跑出了一匹黑马!
晓曼: 那普通开发者想用这玩意儿,得先买个小米手机才行?
原野: 不至于,小米推荐用他们定制的 vLLM 版本跑起来最流畅,但你也完全可以用 Hugging Face 的接口,下个镜像就能用。
晓曼: 成了,最后咱们收个尾。总结一下,MiMo-7B 系列就是靠着精细的预训练、海量自制题,再加上高效的强化学习流程,把模型的“推理能力”练得更牛、更快、更稳,对 LLM 开发来说很有借鉴意义。
原野: 嗯,没错,给 AI 多点思考题做,它就能跑得更溜了。
晓曼: 好的,那今天就先聊到这儿,下次再见!