华为盘古大模型被曝“套壳”造假，核心团队心寒离职

Jim Wang

7-7

原野: 咱俩聊聊最近科技圈那个爆炸性新闻吧，就是华为引以为傲的盘古大模型，被曝出大事儿了。据说啊，源头是一封内部员工的匿名信，直接把矛头指向了它。

晓曼: 哎呀，你没说错，那封信的情绪简直是炸裂！爆料人直接放话，说自己这是“就算自损八百，也要伤敌一千”，听着都替他捏把汗，这是铁了心要揭老底啊。

原野: 咱们都知道华为一直想搞个“世界第二选择”出来，野心勃勃。那你说，盘古大模型团队刚开始那会儿，技术挑战得有多大？尤其是当时资源啊、硬件啊都还没那么给力的时候。

晓曼: 那挑战简直是逆天级别！你想想看，他们几乎是从一片荒芜开始，硬是要在自己家的昇腾硬件上跑那么大的模型。早期的910A芯片算力就那么点儿，还只认fp16浮点格式，导致模型训练那叫一个“三天两头崩”，失败是家常便饭啊。

原野: 听你这么一说，感觉他们每一步都是在刀尖上跳舞，完全是摸着石头过河啊。那经历了这么多九死一生的技术难关，这帮兄弟们到底得投入了多少血汗，才能最终捣鼓出那个让他们引以为傲的135B V3模型啊？

晓曼: 哎呀，那可真是实打实的血汗钱，不对，血汗成果！爆料人说得特别清楚，这团队为了它可是没日没夜地干，头发都熬白了吧，才把无数技术难题给啃下来，最终从头到尾把这个千亿级的模型给训练出来了。在他们心里，这个135B V3，就是华为全栈自研的“亲儿子”，是真材实料的宝贝。

原野: 听着就觉得不容易，简直是拿命在拼。但讽刺的是，咱们这边感叹着人家的血泪付出，那边却不是所有的“成果”都这么来之不易。接下来，咱们可就得好好扒一扒那些被指控“套壳”搞出来的模型了，这才是大戏开场啊。

晓曼: 没错，这才是真正让人上头的地方！你想啊，这边多少人苦哈哈地埋头搞自研，结果呢，另一个小模型实验室却玩起了“弯道超车”，走了条不光彩的“捷径”。

原野: 那这个所谓的“套壳”到底是怎么个玩法？那些看着光鲜亮丽的“成果”，又是怎么变出来的？咱得好好听听这其中的“黑科技”。

晓曼: 哎呀，这手法可以说得上是“简单粗暴”了。爆料里直接点名，盘古135B的V2版本，据说是直接把阿里家的通义千问1.5 110B模型拿过来，稍微续训了一下就敢拿出来溜达了。离谱的是，连代码里的类名都懒得改，内部人都直接开玩笑管它叫“千古”，这脸皮得有多厚啊！

原野: 哇塞，这都敢这么明目张胆？简直是把别人的东西当自己家后院儿了。还有更绝的例子吗？快给我讲讲，我瓜子都准备好了。

晓曼: 哎，别急，还有更让你下巴掉下来的！比如那个盘古Pro MoE模型，据说它可是个“集大成者”，分别套壳了通义千问的2.5版本和Deepseek的模型。更骚的操作来了，为了掩盖这些“罪证”，他们居然会搞什么“洗参数”，就是想把别人模型上的“水印”给洗掉。据说为了显得更“原创”，甚至还故意用脏数据去训练，简直是“此地无银三百两”啊！

原野: 听到这些，我真的替那些日夜奋战、一心想搞原创的工程师们感到不值！这种所谓的“杰作”，简直是对他们最大的侮辱。那在公司内部，这种歪风邪气到底造成了什么样的后果？

晓曼: 后果就是赤裸裸的“劣币驱逐良币”啊！爆料里最让人心凉的一点是，据说高层对这种“套壳”行为不光是知情，甚至还默许了，为啥？因为能“快速出成绩”啊！你想想，那些真正埋头苦干搞自研的团队，不仅拿不到资源，辛辛苦苦弄出来的成果还可能被别人“借用”了，最后呢，一大批有理想有抱负的工程师，直接就心灰意冷，拍拍屁股走人了。

原野: 哎，这事儿可真不是简简单单的技术路线问题了，它直接动摇了整个公司的企业文化和人才管理的根基啊！你想想，这事儿对华为自己来说意味着什么？甚至对我们整个中国AI产业的未来发展，又会带来多大的影响？

晓曼: 这简直就是给我们所有人都敲响了一个震耳欲聋的警钟！如果一家号称以技术立身的公司，内部都开始对这种投机取巧睁一只眼闭一只眼，甚至让它成了“潜规则”，那真是从根儿上把创新的土壤给糟蹋了。你想想，当这种“套壳”造假都能把核心团队气得心寒，直接选择走人，那我们离真正的自主创新，可能就真的渐行渐远了，想想都让人觉得后怕！

大纲

一位华为盘古大模型团队成员揭露了该模型研发过程中存在的内部乱象、造假行为及团队成员的辛酸与挣扎。文章核心冲突在于，一个“小模型实验室”被指控多次通过“套壳”外部先进模型冒充自研成果，严重损害了核心研发团队的声誉和努力。这导致了团队士气低落、人才流失，并引发作者对公司文化和自身职业生涯的深刻反思，最终选择离职。

内部造假与“套壳”行为

小模型实验室（王云鹤团队）被指控多次“套壳”外部模型，如Qwen 1.5 110B、Qwen 2.5 14B、Deepseek v3，并声称是旧模型继承或扩增而来。
135B V2模型被揭露实际为Qwen 1.5 110B续训而来，其模型代码类名甚至仍为Qwen，且配置与旧135B不符。
Pangu Pro MoE 72B被指是Qwen 2.5 14B续训，为“洗掉水印”甚至故意训练脏数据。
针对Deepseek v3，小模型实验室再次选择套壳续训，而真正从头训练的718B MoE努力却面临更多问题和质疑。

盘古模型研发的艰辛与挑战

早期算力非常有限，在910A上训练模型，只支持fp16，且moe效果不佳，tokenizer编码效率极低。
71B和135B模型因tokenizer问题效果差，更换词表后效果未变好，且与竞品差距不断拉大。
核心团队在算力极其有限下，克服重重困难，努力从头训练第三代模型，如38B V3和135B V3（Pangu Ultra）。
135B V3被认为是第一个真正意义上华为全栈自研、从头训练的千亿级模型，其训练过程稳定，未出现loss spike。

员工的幻灭与人才流失

作者因内部造假、团队成果被掠夺感到职业发展担忧和不值，夜不能寐，最终决定离职并要求移除技术报告署名。
许多核心同事因对内部乱象和不公心灰意冷而选择离职，前往字节Seed、Deepseek、月之暗面等知名AI公司。
作者引用离职同事的话：“来这里是我技术生涯中的耻辱，在这里再呆每一天都是浪费生命”，反映了团队普遍的负面情绪。
核心研发团队的辛苦成果（数据、代码）常被小模型实验室“轻飘飘地拿走”，却由后者取得荣耀。

华为内部管理与文化问题

诺亚方舟实验室从研究型转变为交付型，充满了例会、评审、汇报，甚至做实验都要申请。
华为内部存在“外行领导内行”现象，领导层对小模型实验室的造假行为缺乏认知和有效监管。
公司流程管理繁重，版本、血缘等要求严格，但小模型实验室的模型似乎不受这些流程约束，“想套壳就套壳，算力源源不断”。
内部“劣币驱逐良币”，导致诺亚乃至华为在短时间内流失了大量出色的大模型人才。

脚本

原野: 那这个所谓的“套壳”到底是怎么个玩法？那些看着光鲜亮丽的“成果”，又是怎么变出来的？咱得好好听听这其中的“黑科技”。